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(5^ La presente invention concerne des genes impliques 
dans les maladies inflammatoires et/ ou immunes et cer- 
tains cancers, en particulier les maladies inflammatoires 
cryptogenetiques de I'intestin, ainsi que les proteines co- 
dees par ces genes. Des methodes de diagnostics de ma- 
ladies inflammatoires sont egalement des objets de la 
presente invention. 
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La presente invention concerne des genes impliques dans les 
5 maladies inflammatories et/ou immunes et certains cancers, en particulier les 
maladies inflammatoires cryptogenetiques de Tintestin, ainsi que les proteines 
codees par ces gdnes. Des methodes de diagnostics de maladies inflammatoires sont 
egalement des objets de la presente invention. 

Les maladies inflammatoires cryptogenetiques de i'intestin (MICI) sont des 

10 maladies caracterisees par une inflammation du tube digestif dont la cause est 
inconnue. Selon la localisation et les caracteristiques de Tinflammation on distingue 
deux entitSs nosologiques differentes: la rectocolite hemorragique (RCH) et la 
maladie de Crohn (MC). La RCH a ete decrite par S Wilkes en 1865 tandis que le 
premier cas d'ileite regionale a ete rapportee par Crohn en 1932. En r£alite, il est 

1 5 possible que ces deux maladies soient beaucoup plus anciennes. 

Les MICI sont des maladies chroniques qui evoluent tout au long de la vie et 
qui touchent environ 1 a 2 personnes sur 1000 habitants dans les pays occidentaux, 
ce qui represente entre 60.000 et 100.000 malades en France. II s'agit de maladies 
apparaissant chez le sujet jeune (le pic d'incidence est dans la troisieme decennie), 

20 6voluant par pouss6es entrecoup6es de remissions, avec des complications 
frequentes telles que la denutrition, le retard de croissance chez l'enfant, la 
demineralisation osseuse et a terme la degenerescence maligne vers le cancer du 
colon. II n'existe pas de traitement specifique. Les therapeutiques habituelles font 
appel aux anti-inflammatoires, aux immunosuppresseurs et ^ la chirurgie. Tous ces 

25 moyens therapeutiques sont eux-memes source d*une morbidite iatrogene 
importante. Pour toutes ces raisons les MICI apparaissent comme un important 
probleme de sant£ publique. 

L'etiologie des MICI est actuellement inconnue. Des facteurs 
d'environnement sont impliques dans la survenue de la maladie comme en 

30 temoignent 1'augmentation seculaire d'incidence de la maladie et la concordance 
incomplete chez les jumeaux monozygotes. Les seuls facteurs de risque 
environnementaux actuellement reconnus sont 1) le tabac dont le role est nefaste 
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dans la MC et benefique dans la RCH et 2) l'appendicectomie qui a un role 
protecteur pour la RCH. 

Une predisposition g^netique est depuis Iongtemps suspectee devant 
l'existence d'agregations ethniques et familiales de ces maladies. En effet, les MICI 
5 sont plus frequentes dans la population caucasienne et en particulier la population 
juive d'Europe centrale. Les formes familiales reprSsentent de 6 a 20% des cas de 
MICI. Elles sont particulierement frequentes lorsque le debut de la maladie est 
precoce. Cependant, ce sont les etudes chez les jumeaux qui ont permis de 
confirmer le caractfere gen&ique de ces maladies. En effet, le taux de concordance 

1 0 entre jumeaux pour ces maladies est plus important chez les jumeaux monozygotes 
que chez les jumeaux dizygotes plaidant fortement pour une composante hereditaire 
aux MICI, en particulier a la MC. Selon toute vraisemblance, les MICI sont des 
maladies genetiques complexes faisant intervenir plusieurs genes differents, en 
interaction entre eux et avec des facteurs d'environnement. Les MICI peuvent done 

1 5 etre classees dans le cadre des maladies multifactorielles. 

Deux grandes strategies ont ete developpees afin de mettre en evidence les 
genes de susceptibilite aux MICI. La premiere repose sur l'analyse de genes 
candidats pour des raisons physiopathologiques. Ainsi de nombreux genes ont ete 
proposes comme potentiellement importants pour les MICL II s'agit souvent de 

20 genes ayant un role dans inflammation et la reponse immune. On peut citer les 
genes HLA, TAP, TNF, MICA, le recepteur T du lymphocyte, ICAM1, 
l'interleukine 1, CCR5, etc. D'autres genes participent a des fonctions diverses tels 
que GAI2, la motiline, MRAMP, HMLH1, etc. En realite, aucun des differents 
genes candidats Studies n'a actuellement fait la preuve definitive de son role dans la 

25 survenue des MICL 

Le recent developpement de cartes du genome humain utilisant des 
marqueurs genetiques hautement polymorphes a permis aux geneticiens de 
developper une approche non ciblee sur l'ensemble du genome. Cette demarche, 
appelee aussi genetique inverse ou clonage positionnel, ne fait aucune hypothese sur 

30 les genes impliques dans la maladie et tente de decouvrir ceux-ci a travers un 
criblage systematique du genome. La methode la plus utilisee pour les maladies 
genetiques complexes repose sur I'etude de l'identite par la descendance des 
malades d'une meme famille. Cette valeur est calculee pour un grand nombre (300- 
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400) de marqueurs de polymorphisme repartis regulierement (tous les lOcM) sur le 
genome. En cas d'exces d'identite entre malades, le(s) marqueur(s) teste(s) 
indique(nt) une region supposee contenir un gene de susceptibilite a la maladie. 
Dans le cas des maladies genetiques complexes, le modele sous-jacent a la 
5 predisposition genetique (nombre de genes et importance respective de chacun 
d'entre eux) etant inconnu, les rn&hodes statistiques a utiliser devront etre adaptees. 

La presente invention concerne la mise en evidence de la sequence 
nucleique de genes impliques dans les MICI, et d'autres maladies inflammatoires, 
ainsi que 1'utilisation de ces sequences nucleiques. 

10 Dans le cadre de la presente invention, des travaux pr61iminaires des 

inventeurs ont deja permis de localiser un gene de susceptibilite a la MC. En effet, 
les inventeurs (Hugot et al., 1996) ont montre qu'un gene de susceptibilite a la MC 
etait localise dans la region pericentromerique du chromosome 16 (figure 1). II 
s'agissait du premier gene de susceptibilite a une maladie genetique complexe 

1 5 localise par clonage positionnel et satisfaisant aux crit&res stricts proposes dans la 
litterature (Lander et Kruglyak, 1995). Ce gene a ete nomme IBD1 (pour 
Inflammatory Bowel Disease 1). Depuis, d'autres localisations ont ete proposees par 
d'autres auteurs en particulier sur les chromosomes 12, 1, 3, 6 et 7 (Satsangi et al., 
1996 ; Cho et al., 1998). Bien que localises, aucun de ces genes de susceptibilite 

20 aux MICI n'a actuellement pu etre identifie. 

Certains auteurs n'ont pu repliquer cette localisation (Rioux et al., 1998). 
Ceci n'est cependant pas surprenant dans le cas de maladies genetiques complexes 
ou une heterogeneite genetique est probable. 

II est interessant de noter que selon la meme approche de clonage 

25 positionnel, des localisations ont aussi 6te proposees sur le chromosome 16 pour 
plusieurs maladies immunes et inflammatoires telles que la spondylarthrite 
ankylosante, le syndrome de Blau, le psoriasis, etc. (Becker et al., 1998 ; Tromp et 
al., 1996). Toutes ces maladies pourraient alors partager un meme gene (ou un 
meme groupe de genes) localise sur le chromosome 16. 

30 Le maximum des tests de liaison genetique est situe pratiquement toujours a 

la meme position, au niveau de D16S409 ou D16S411 separes seulement de 2cM. 
Ce resultat est en opposition avec la taille importante (habituellement superieure a 
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20cM) de l'intervalle de confiance attribuable a la localisation gen&ique selon une 
demarche utilisant des analyses de liaison non parametriques. 

La comparaison des tests statistiques utilises dans les travaux des inventeurs 
montre que les tests bases sur 1'identite par descendance complete (Tz2) sont 
5 meilleurs que les tests base sur la moyenne de l'identite par descendance (Tz) (fig. 
1). Une telle difference peut etre expliquee par un effet recessif de IBD1 . 

Plusieurs genes connus dans la region pericentromerique du chromosome 
16, tels que le recepteur a l'interleukine 4, CD19, CD43, CD1 1, apparaissent comme 
de bons candidats potentiels pour la MC. Des r6sultats preliminaires ne plaident 
1 0 cependant pas en faveur de Pimplication de ces genes dans la MC. 

En particulier, la presente invention fournit la sequence non seulement du 
gene IBD1, mais egalement la sequence partielle d'un autre gene, appele IBDlprox 
en raison de sa localisation a proximite d'IBD, et mis en evidence comme rapporte 
dans les exemples ci-apres. Ces genes dont la sequence d'ADNc correspond 
1 5 respectivement a SEQ ID N° 1 et SEQ ID N° 4 sont done potentiellement impliques 
dans de nombreuses maladies inflammatoires et/ou immunes ainsi que dans des 
cancers. 

La sequence peptidique exprimee par les genes IBD1 et IBDlprox est 
representee par SEQ ID N° 2 et SEQ ID N° 5 respectivement; la sequence 
20 genomique de ces genes est representee par SEQ ID N° 3 et SEQ ID N° 6 
respectivement. 

Ainsi, la presente invention a pour objet un acide nucleique purifie ou isole, 
caracterise en ce qu'il comprend une sequence nucleique choisie dans le groupe de 
sequences suivantes : 
25 a) SEQ ID N° 1 , SEQ ID N° 3, SEQ ID N° 4 et SEQ ID N° 6 ; 

b) la sequence d'un fragment d'au moins 15 nucleotides consecutifs 
(Tune sequence choisie parmi SEQ ID N° I, SEQ ID N° 3, SEQ 
IDN°4ou SEQ ID N°6; 

c) une sequence nucleique presentant un pourcentage d'identite 
30 d'au moins 80 %, apres alignement optimal avec une sequence 

definie en a) ou b) ; 

d) une sequence nucleique s'hybridant dans des conditions de forte 
stringence avec une sequence nucleique definie en a) ou b) ; 
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e) la sequence complementaire ou la sequence de l'ARN 
correspondant a une sequence telle que definie en a), b), c) ou d). 
La sequence d'acides nucleiques selon l'invention definie en c) presente un 
pourcentage dMdentite d'au moins 80 % apres alignement optimal avec une 
5 sequence telle que definie en a) ou b) ci-dessus, de preference 90 %, de fa<?on la 
pluspr6feree98%. 

Par acide nucleique, sequence nucleique ou d'acide nucleique, 
polynucleotide, oligonucleotide, sequence de polynucleotide, sequence 
nucleotidique, termes qui seront employes indifferemment dans la presente 
10 description, on entend designer un enchainement precis de nucleotides, modifies ou 
non, permettant de definir un fragment ou une region d'un acide nucleique, 
comportant ou non des nucleotides non naturels, et pouvant correspondre aussi bien 
a un ADN double brin, un ADN simple brin que des produits de transcription 
desdits ADNs. Ainsi, les sequences nucleiques selon l'invention englobent 
1 5 egalement les PNA (Peptid Nucleic Acid), ou analogues. 

II doit etre compris que la presente invention ne concerne pas les sequences 
nucleotidiques dans leur environnement chromosomique naturel, c'est-a-dire a Tetat 
naturel. II s'agit de sequences qui ont ete isolees et/ou purifiees, c'est-a-dire qu'elles 
ont ete prelevees directement ou indirectement, par exemple par copie, leur 
20 environnement ayant ete au moins partiellement modifie. On entend ainsi egalement 
designer les acides nucleiques obtenus par synthese chimique. 

Par « pourcentage d'identite » entre deux sequences d'acides nucleiques ou 
d'acides amines au sens de la presente invention, on entend designer un 
pourcentage de nucleotides ou de residus d'acides amines identiques entre les deux 
25 sequences a comparer, obtenu apres le meilleur alignement, ce pourcentage etant 
purement statistique et les differences entre les deux sequences etant reparties au 
hasard et sur toute leur longueur. On entend designer par "meilleur alignement" ou 
"alignement optimal", Talignement pour lequel le pourcentage d'identite determine 
comme ci-apres est le plus eleve. Les comparisons de sequences entre deux 
30 sequences d'acides nucleiques ou d'acides amines sont traditionnellement realisees 
en comparant ces sequences apres les avoir alignees de manidre optimale, ladite 
comparaison etant realisee par segment ou par « fenetre de comparaison » pour 
identifier et comparer les regions locales de similarity de sequence. L'alignement 



2806739 



optimal des sequences pour la comparaison peut etre realise, outre manuellement, 
au moyen de l'algorithme d'homologie locale de Smith et Waterman (1981), au 
moyen de l'algorithme d'homologie locale de Neddleman et Wunsch (1970), au 
moyen de la methode de recherche de similarity de Pearson et Lipman (1988), au 
5 moyen de logiciels informatiques utilisant ces algorithmes (GAP, BESTFIT, 
BLAST P, BLAST N, FASTA et TFASTA dans le Wisconsin Genetics Software 
Package, Genetics Computer Group, 575 Science Dr., Madison, WI). Afin d'obtenir 
Talignement optimal, on utilise de preference le programme BLAST, avec la 
matrice BLOSUM 62. On peut egalement utiliser les matrices PAM ou PAM250. 

10 Le pourcentage d 5 identity entre deux sdquences decides nucl&ques ou 

d'acides amines est determine en comparant ces deux sequences alignees de 
maniere optimale, la sequence d'acides nucleiques ou d'acides amines a comparer 
pouvant comprendre des additions ou des deletions par rapport a la sequence de 
reference pour un alignement optimal entre ces deux sequences. Le pourcentage 

15 d'identite est calcule en determinant le nombre de positions identiques pour 
lesquelles le nucleotide ou le residu d'acide amine est identique entre les deux 
sequences, en divisant ce nombre de positions identiques par le nombre total de 
positions comparees et en multipliant le resultat obtenu par 100 pour obtenir le 
pourcentage d'identite entre ces deux sequences. 

20 Par sequences nucleiques presentant un pourcentage d'identite d'au 

moins 80 %, de preference 90 %, de fa£on plus preferee 98 %, apres alignement 
optimal avec une sequence de reference, on entend designer les sequences 
nucleiques presentant, par rapport a la sequence nucleique de reference, certaines 
modifications comme en particulier une deletion, une troncation, un allongement, 

25 une fusion chimerique, et/ou une substitution, notamment ponctuelle, et dont la 
sequence nucleique presente au moins 80 %, de preference 90 %, de fa^on plus 
preferee 98 %, d'identite apres alignement optimal avec la sequence nucleique de 
reference. II s'agit de preference de sequences dont les sequences complementaires 
sont susceptibles de s'hybrider specifiquement avec les sequences SEQ ID N° 1 ou 

30 SEQ ID N° 4 de l'invention. De preference, les conditions d'hybridation specifiques 
ou de forte stringence seront telles qu'elles assurent au moins 80 %, de preference 
90 %, de fa?on plus preferee 98 % d'identite apres alignement optimal entre Tune 
des deux sequences et la sequence complementaire de Pautre. 
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Une hybridation dans des conditions de forte stringence signifie que les 
conditions de temperature et de force ionique sont choisies de telle maniere qu'elles 
permettent le maintien de l'hybridation entre deux fragments d'ADN 
complementaires. A titre illustratif, des conditions de forte stringence de Petape 
5 d'hybridation aux fins de definir les fragments polynucleotidiques decrits ci-dessus, 
sont avantageusement les suivantes. 

L'hybridation ADN-ADN ou ADN-ARN est realisee en deux etapes : (1) 
prehybridation a 42°C pendant 3 heures en tampon phosphate (20 mM, pH 7,5) 
contenant 5 x SSC (1 x SSC correspond a une solution 0,15 M NaCl + 0,015 M 

10 citrate de sodium), 50 % de formamide, 7 % de sodium dodecyl sulfate (SDS), 10 x 
Denhardt's, 5 % de dextran sulfate et 1 % d'ADN de sperme de saumon ; (2) 
hybridation proprement dite pendant 20 heures a une temperature dependant de la 
taille de la sonde (i.e. : 42°C, pour une sonde de taille > 100 nucleotides) suivie de 2 
lavages de 20 minutes a 20°C en 2 x SSC + 2 % SDS, 1 lavage de 20 minutes a 

15 20°C en 0,1 x SSC + 0,1 % SDS. Le dernier lavage est pratique en 0,1 x SSC + 0,1 
% SDS pendant 30 minutes a 60°C pour une sonde de taille > 100 nucleotides. Les 
conditions d'hybridation de forte stringence decrites ci-dessus pour un 
polynucleotide de taille definie, peuvent etre adaptees par Phomme du metier pour 
des oligonucleotides de taille plus grande ou plus petite, selon Penseignement de 

20 Sambrook et al., 1989. 

Parmi les sequences nucleiques presentant un pourcentage d'identite d'au 
moins 80 %, de preference 90 %, de fa9on plus preferee 98 %, apr£s alignement 
optimal avec la sequence selon Pinvention, on prefere £galement les sequences 
nucleiques variantes de SEQ ID N° 1, ou de SEQ ID N° 4, ou de leurs fragments, 

25 c'est-a-dire Pensemble des sequences nucleiques correspondant a des variants 
alleliques, c'est-a-dire des variations individuelles des sequences SEQ ID N° 1 ou 
SEQ ID N° 4. Ces sequences mutees naturelles correspondent a des 
polymorphismes presents chez les mammiferes, en particulier chez Petre humain et, 
notamment, a des polymorphismes pouvant conduire a la survenue d'une 

30 pathologic De preference, la presente invention concerne les sequences nucleiques 
variantes dans lesquelles les mutations conduisent a une modification de la 
sequence d'acides amines du polypeptide, ou de ses fragments, codes par la 
sequence normale de SEQ ID N° 1 ou SEQ ID N° 4. 
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On entend egalement designer par sequence nucleique variante tout ARN ou 
ADNc resultant d'une mutation et/ou variation d'un site d'epissage de la sequence 
nucleique genomique dont 1' ADNc a pour sequence SEQ ID N° 1 ou SEQ ID N° 4. 

L'invention concerne de preference un acide nucleique purifie ou isole selon 
5 la presente invention, caracterise en ce qu'il comprend ou est constitu6 de Tune des 
sequences SEQ ID N° 1 ou SEQ ID N° 4, de leurs sequences compiementaires ou 
des sequences de TARN correspondant a SEQ ID N° 1 ou SEQ ID N° 4. 

Les amorces ou sondes, caracterisees en ce qu'elles comprennent une 
sequence d'un acide nucleique selon Pinvention, font egalement partie de 
10 P invention. 

Ainsi, la presente invention concerne egalement les amorces ou les sondes 
selon Pinvention qui peuvent permettre en particulier de mettre en evidence ou de 
discriminer les sequences nucleiques variantes, ou d'identifier la sequence 
genomique des genes dont P ADNc est represent par SEQ ID N° 1 ou SEQ ID N° 

15 4, en utilisant notamment une methode d' amplification telle que la methode PCR, 
ou une methode apparentee. 

L'invention concerne egalement Putilisation d'une sequence d'acide 
nucleique selon Pinvention comme sonde ou amorce, pour la detection, 
Pidentification, le dosage ou P amplification de sequence d'acide nucleique. 

20 Selon Pinvention, les polynucleotides pouvant etre utilises comme sonde ou 

comme amorce dans des precedes de detection, d 5 identification, de dosage ou 
d' amplification de sequence nucleique, presentent une taille minimale de 15 bases, 
de preference de 20 bases, ou mieux de 25 a 30 bases. 

Les sondes et amorces selon Pinvention peuvent etre marquees directement 

25 ou indirectement par un compose radioactif ou non radioactif par des methodes bien 
connues de Phomme du metier, afin d'obtenir un signal detectable et/ou 
quantifiable. 

Les sequences de polynucleotides selon Pinvention non marquees peuvent 
etre utilisees directement comme sonde ou amorce. 
30 Les sequences sont generalement marquees pour obtenir des sequences 

utilisables pour de nombreuses applications. Le marquage des amorces ou des 
sondes selon Pinvention est realise par des elements radioactifs ou par des 
molecules non radioactives. 
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Parmi les isotopes radioactifs utilises, on peut citer le 32 P, le 33 P, le 35 S, le 3 H 
ou le r25 L Les entites non radioactives sont selectionnees parmi les ligands tels la 
biotine, l'avidine, la streptavidine, la dioxygenine, les haptenes, les colorants, les 
agents luminescents tels que les agents radioluminescents, chemoluminescents, 
5 bioluminescents, fluorescents, phosphorescents. 

Les polynucleotides selon Pinvention peuvent ainsi etre utilises corame 
amorce et/ou sonde dans des procedes mettant en oeuvre notamment la technique de 
PCR (amplification en chaine par polymerase) (Rolfs et al, 1991). Cette technique 
necessite le choix de paires d'amorces oligonucleotidiques encadrant le fragment 

1 0 qui doit etre amplifie. On peut, par exemple, se referer a la technique decrite dans le 
brevet americain U.S. N° 4,683,202. Les fragments amplifies peuvent etre 
identifies, par exemple apres une electrophorese en gel d'agarose ou de 
polyacrylamide, ou aprds une technique chromatographique comme la filtration sur 
gel ou la chromatographic echangeuse d'ions, puis sequences. La specificite de 

15 P amplification peut etre controlee en utilisant comme amorces les sequences 
nucleotidiques de polynucleotides de Pinvention et comme matrices, des plasmides 
contenant ces sequences ou encore les produits d'amplification derives. Les 
fragments nucleotidiques amplifies peuvent etre utilises comme reactifs dans des 
reactions d' hybridation afin de mettre en evidence la presence, dans un echantillon 

20 biologique, d'un acide nucleique cible de sequence complementaire a celle desdits 
fragments nucleotidiques amplifies. 

L' invention vise egalement les acides nucleiques susceptibles d*etre obtenus 
par amplification a Paide d'amorces selon Pinvention. 

D'autres techniques d'amplification de Pacide nucleique cible peuvent etre 

25 avantageusement employees comme alternative a la PCR (PCR-like) a Paide de 
couple d'amorces de sequences nucleotidiques selon Pinvention. Par PCR-like on 
entend designer toutes les methodes mettant en oeuvre des reproductions directes ou 
indirectes des sequences d'acides nucleiques, ou bien dans lesquelles les systemes 
de marquage ont ete amplifies, ces techniques sont bien entendu connues. En 

30 general il s'agit de P amplification de PADN par une polymerase ; lorsque 
Pechantillon d'origine est un ARN il convient prealablement d'effectuer une 
transcription reverse. II existe actuellement de tr6s nombreux procedes permettant 
cette amplification, comme par exemple la technique SDA (Strand Displacement 



2806739 



10 

Amplification) ou technique d' amplification a emplacement de brin (Walker et al., 
1992), la technique TAS (Transcription-based Amplification System) decrite par 
Kwoh et al (1989), la technique 3SR (Self-Sustained Sequence Replication) decrite 
par Guatelli et al. (1990), la technique NASBA (Nucleic Acid Sequence Based 
5 Amplification) decrite par Kievitis et al. (1991), la technique TMA (Transcription 
Mediated Amplification), la technique LCR (Ligase Chain Reaction) decrite par 
Landegren et al. (1988), la technique de RCR (Repair Chain Reaction) decrite par 
Segev (1992), la technique CPR (Cycling Probe Reaction) decrite par Duck et al. 
(1990), la technique d'amplification a la Q-beta-replicase decrite par Miele et al. 

10 (1 983). Certaines de ces techniques ont depuis ete perfectionnees. 

Dans le cas ou le polynucleotide cible a detecter est un ARNm, on utilise 
avantageusement, prealablement a la mise en oeuvre d'une reaction d'amplification 
a Paide des amorces selon Pinvention ou a la mise en oeuvre d'un procede de 
detection a Paide des sondes de Pinvention, une enzyme de type transcriptase 

15 inverse afin d'obtenir un ADNc a partir de PARNm contenu dans Pechantillon 
biologique. L'ADNc obtenu servira alors de cible pour les amorces ou les sondes 
mises en oeuvre dans le procede d'amplification ou de detection selon Pinvention. 

La technique d'hybridation de sondes peut etre realis6e de manteres diverses 
(Matthews et al., 1988). La methode la plus generate consiste a immobiliser Pacide 

20 nucleique extrait des cellules de differents tissus ou de cellules en culture sur un 
support (tels que la nitrocellulose, le nylon, le polystyrene) et a incuber, dans des 
conditions bien definies, Pacide nucleique cible immobilise avec la sonde. Apres 
Phybridation, Pexces de sonde est elimine et les molecules hybrides formees sont 
detectees par la methode appropriee (mesure de la radioactivite, de la fluorescence 

25 ou de Pactivite enzymatique liee a la sonde). 

Selon un autre mode de mise en oeuvre des sondes nucleiques selon 
Pinvention, ces dernieres peuvent etre utilisees comme sondes de capture. Dans ce 
cas, une sonde, dite « sonde de capture », est immobilisee sur un support et sert a 
capturer par hybridation specifique Pacide nucleique cible obtenu a partir de 

30 Pechantillon biologique a tester et Pacide nucleique cible est ensuite detecte grace a 
une seconde sonde, dite « sonde de detection », marquee par un element facilement 
detectable. 
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Parmi les fragments d'acides nucleiques interessants, il faut ainsi citer en 
particulier les oligonucleotides anti-sens, c'est-a-dire dont la structure assure, par 
hybridation avec la sequence cible, une inhibition de l'expression du produit 
correspondant. II faut egalement citer les oligonucleotides sens qui, par interaction 
5 avec des prolines impliquees dans la regulation de ^expression du produit 
correspondant, induiront soit une inhibition, soit une activation de cette expression. 

La presente invention concerne egalement un polypeptide isole caracterise 
en ce qu'il comprend un polypeptide choisi parmi : 

a) un polypeptide de sequence SEQ ID N° 2 ou SEQ ID N° 5 ; 
10 b) un polypeptide variant d'un polypeptide de sequence definie en 

a); 

c) un polypeptide homologue a un polypeptide defini en a) ou b), 
comportant au moins 80 % d'identite avec ledit polypeptide de 

a) ; 

15 d) un fragment d'au moins 15 acides amines consecutifs d'un 

polypeptide defini en a) , b) ou c) ; 
e) un fragment biologiquement actif d'un polypeptide defini en a), 

b) ou c). 

Par « polypeptide », on entend, au sens de la presente invention, designer 

20 des proteines ou des peptides. 

Par « fragment biologiquement actif », on entend un fragment possedant la 
meme activite biologique que le fragment peptidique dont il est deduit, de 
preference dans le meme ordre de grandeur (a un facteur 10 pres). Ainsi, les 
exemples montrent que la proteine IBD1 (SEQ ID N° 2) a un role potentiel dans les 

25 phenomenes d'apoptose. Un fragment biologiquement actif de la proteine IBD1 
consiste done en un polypeptide issu de SEQ ID N° 2 possedant egalement un role 
dans l'apoptose. Les exemples ci-apres proposent des fonctions biologiques pour les 
proteines IBD1 et IBDlprox, en fonction des domaines peptidiques de ces proteines 
et permettent ainsi a l'homme du metier d'identifier les fragments biologiquement 

30 actifs. 

De preference un polypeptide selon 1' invention est un polypeptide constitue 
de la sequence SEQ ID N° 2 (correspondant a la proteine codee par le gene IBD1) 
ou de la sequence SEQ ID N° 5 (correspondant a la proteine codee par IBDlprox) 
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ou d'une sequence possedant au moins 80 % d'identite avec SEQ ID N° 2 ou SEQ 
ID N° 5 apres alignement optimal. 

La sequence du polypeptide presente un pourcentage d'identite d'au moins 
80 % apres alignement optimal avec les sequences SEQ ID N° 2 ou SEQ ID N° 5, 
5 de preference 90 %, de fa?on plus preferee 98 %. 

Par polypeptide dont la sequence d'acides amines presentant un pourcentage 
d'identite d'au moins 80 %, de preference 90 %, de fa<?on plus preferee 98 %, apres 
alignement optimal avec une sequence de reference, on entend designer les 
polypeptides presentant certaines modifications par rapport au polypeptide de 
10 reference, comme en particulier une ou plusieurs deletions, troncations, un 
allongement, une fusion chimerique, et/ou une ou plusieurs substitutions. 

Parmi les polypeptides dont la sequence d'acides amines presentant un 
pourcentage d'identite d'au moins 80 %, de preference 90 %, de fa9on plus preferee 
98 %, apres alignement optimal avec les sequences SEQ ID N° 2, SEQ ID N° 5 ou 
15 avec Tun de leurs fragments selon 1' invention, on pr^fere les polypeptides variants 
codes par les sequences nucleiques variantes telles que precedemment definies, en 
particulier les polypeptides dont la sequence d'acides amines presente au moins une 
mutation correspondant notamment a une troncation, deletion, substitution et/ou 
addition d'au moins un residu d'acide amine .par rapport aux sequences SEQ ID N° 
20 2, SEQ ID N° 5 ou avec Tun de leurs fragments, de maniere plus preferee les 
polypeptides variants presentant une mutation liee a une pathologic 

La presente invention concerne egalement les vecteurs de clonage et/ou 
d'expression comprenant un acide nucleique ou codant pour un polypeptide selon 
F invention. Un tel vecteur peut egalement contenir les elements necessaires a 
25 Fexpression et eventuellement a la secretion du polypeptide dans une cellule hote. 
Une telle cellule hote est egalement un objet de l'invention. 

Les vecteurs caracterises en ce qu'ils comportent une sequence de 
promoteur et/ou de regulateur selon l'invention, font egalement partie de 
l'invention. 

30 Lesdits vecteurs comportent de preference un promoteur, des signaux 

d' initiation et de terminaison de la traduction, ainsi que des regions appropriees de 
regulation de la transcription. lis doivent pouvoir etre maintenus de fa^on stable 
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dans la cellule et peuvent eventuellement posseder des signaux particuliers 
specifiant la secretion de la proteine traduite. 

Ces differents signaux de controle sont choisis en fonction de Phote 
cellulaire utilise. A cet effet, les sequences d'acide nucleique selon l'invention 
5 peuvent etre inserees dans des vecteurs a replication autonome au sein de Phote 
choisi, ou des vecteurs integratifs de Phote choisi. 

Panni les systemes a replication autonome, on utilise de preference en 
fonction de la cellule hote, des systemes de type plasmidique ou viral, les vecteurs 
viraux pouvant notamment etre des adenovirus (Perricaudet et al., 1992), des 
10 retrovirus, des lentivirus, des poxvirus ou des virus herpetiques (Epstein et al., 
1992). L'homme du metier connait les technologies utilisables pour chacun de ces 
systemes. 

Lorsque Ton souhaite Pint6gration de la sequence dans les chromosomes de 
la cellule hote, on peut utiliser par exemple des systemes de type plasmidique ou 
15 viral ; de tels virus sont, par exemple, les retrovirus (Temin, 1986), ou les AAV 
(Carter, 1993). 

Parmi les vecteurs non viraux, on prefere les polynucleotides nus tels que 
l'ADN nu ou TARN nu selon la technique developpee par la societe VICAL, les 
chromosomes artificiels de bacterie (BAC, bacterial artificial chromosome), les 

20 chromosomes artificiels de levure (YAC, yeast artificial chromosome) pour 
Pexpression dans la levure, les chromosomes artificiels de souris (MAC, mouse 
artificial chromosome) pour Texpression dans les cellules murines et de maniere 
preferee les chromosomes artificiels d'homme (HAC, human artificial 
chromosome) pour 1'expression dans les cellules humaines. 

25 De tels vecteurs sont prepares selon les methodes couramment utilisees par 

Phomme du metier, et les clones en resultant peuvent etre introduits dans un hote 
approprie par des methodes standard, telles que par exemple la lipofection, 
Pelectroporation, le choc thermique, la transformation apres permeabilisation 
chimique de la membrane, la fusion cellulaire. 

30 L'invention comprend en outre les cellules hotes, notamment les cellules 

eucaryotes et procaryotes, transformees par les vecteurs selon l'invention ainsi que 
les animaux transgeniques, de preference les mammiferes, excepte PHomme, 
comprenant une desdites cellules transformees selon P invention. Ces animaux 
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peuvent etre utilises en temps que modeles, pour Petude de Petiologie de maladies 
inflammatoires et/ou immunes, et en particulier des maladies inflammatoires du 
tube digestif, ou pour Petude de cancers. 

Parmi les cellules utilisables aux sens de la presente invention, on peut citer 
5 les cellules bacteriennes (Olins et Lee, 1993), mais aussi les cellules de levure 
(Buckholz, 1993), de meme que les cellules animales, en particulier les cultures de 
cellules de mammiferes (Edwards et Aruffo, 1993), et notamment les cellules 
d'ovaire de hamster chinois (CHO). On peut citer egalement les cellules d'insectes 
dans lesquelles on peut utiliser des procedes mettant par exemple en oeuvre des 
10 baculovirus (Luckow, 1993). Un hote cellulaire prefere pour P expression des 
proteines de Pinvention est constitue par les cellules COS. 

Parmi les mammiferes selon Pinvention, on prefere des animaux tels que les 
rongeurs, en particulier les souris, les rats ou les lapins, exprimant un polypeptide 
selon Pinvention. 

15 Parmi les mammiferes selon Pinvention, on prefere egalement des animaux 

tels que les souris, les rats ou les lapins, caracterises en ce que le gene codant pour 
la proline de sequence SEQ ID N° 2 ou SEQ ID N° 5, ou dont la sequence est 
codee par le gene homologue chez ces animaux, n'est pas fonctionnel, est invalide 
ou presente au moins une mutation. 

20 Ces animaux transgeniques sont obtenus par exemple par recombinaison 

homologue sur cellules souches embryonnaires, transfert de ces cellules souches a 
des embryons, selection des chimeres affectees au niveau des lignees 
reproductrices, et croissance desdites chimeres. 

Les animaux transgeniques selon Pinvention peuvent ainsi surexprimer le 

25 gene codant pour la proteine selon Pinvention, ou leur gene homologue, ou 
exprimer ledit gene dans lequel est introduite une mutation. Ces animaux 
transgeniques, en particulier des souris, sont obtenus par exemple par transfection 
de copie de ce gene sous controle d'un promoteur fort de nature ubiquitaire, ou 
selectif d'un type de tissu, ou apres transcription virale. 

30 Alternativement, les animaux transgeniques selon Pinvention peuvent etre 

rendus deficients pour le gene codant pour Pun des polypeptides de sequences SEQ 
ID N° 2 ou SEQ ID N° 5, ou leurs genes homologues, par inactivation a Paide du 
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systeme LOXP/CRE recombinase (Rohlmann et al., 1996) ou de tout autre systeme 
d'inactivation de P expression de ce gene. 

Les cellules et mammiferes selon Finvention sont utilisables dans une 
methode de production d'un polypeptide selon l'invention, comme decrit ci- 
5 dessous, et peuvent egalement servir a titre de modele d'analyse. 

Les cellules ou mammiferes transformes tels que decrits precedemment 
peuvent aussi etre utilises a titre de modeles afin d'etudier les interactions entre les 
polypeptides selon 1'invention, et les composes chimiques ou proteiques, impliques 
directement ou indirectement dans les activites des polypeptides selon Pinvention, 
1 0 ceci afin d'etudier les differents mecanismes et interactions mis en jeu. 

lis peuvent en particulier etre utilises pour la selection de produits 
interagissant avec les polypeptides selon 1'invention, notamment la proteine de 
sequence SEQ ID N° 2 ou SEQ ID N° 5 ou leurs variants selon 1'invention, a titre 
de cofacteur, ou d'inhibiteur, notamment competitif, ou encore ayant une activite 
15 agoniste ou antagoniste de Pactivite des polypeptides selon Pinvention. De 
preference, on utilise lesdites cellules transformees ou animaux transgeniques a titre 
de modele notamment pour la selection de produits permettant de hitter contre les 
pathologies liees a une expression anormale de ce gene. 

L'invention concerne egalement Putilisation d'une cellule, d'un mammifere 
20 ou d'un polypeptide selon Pinvention pour le criblage de composes chimiques ou 
biochimiques pouvant interagir directement ou indirectement avec les polypeptides 
selon Pinvention, et/ou capable de moduler l'expression ou Pactivite de ces 
polypeptides. 

De la meme fa9on, Pinvention concerne aussi un procede de criblage de 
25 composes capables d'interagir in vitro ou in vivo avec un acide nucleique selon 
Pinvention, en utilisant un acide nucleique une cellule ou un mammifere selon 
Pinvention, et en detectant la formation d'un complexe entre les composes 
candidats et Pacide nucleique selon Pinvention. 

Les composes ainsi selectionnes sont egalement objets de Pinvention. 
30 L'invention concerne aussi Putilisation d'une sequence d'acide nucleique 

selon l'invention pour la synthese de polypeptides recombinants. 

La methode de production d'un polypeptide de Pinvention sous forme 
recombinante, elle-meme comprise dans la presente invention, se caracterise en ce 
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que Ton cultive les cellules transformees, notamment les cellules ou mammiferes de 
la presente invention, dans des conditions permettant P expression d'un polypeptide 
recombinant code par une sequence d'acide nucleique selon Pinvention, et que Ton 
recupere ledit polypeptide recombinant. 
5 Les polypeptides recombinants, caracterises en ce qu'ils sont susceptibles 

d'etre obtenus par ladite m&hode de production, font 6galement partie de 
Pinvention. 

Les polypeptides recombinants obtenus comrae indique ci-dessus, peuvent 
aussi bien se presenter sous forme glycosylee que non glycosylee et peuvent 
1 0 presenter ou non la structure tertiaire naturelle. 

Les sequences des polypeptides recombinants peuvent etre egalement 
modifiees afin d'ameliorer leur solubilite, en particulier dans les solvants aqueux. 

De telles modifications sont connues de l'homme du metier comme par 
exemple la deletion de domaines hydrophobes ou la substitution d'acides amines 
1 5 hydrophobes par des acides amines hydrophiles. 

Ces polypeptides peuvent etre produits a partir des sequences d'acide 
nucleique definies ci-dessus, selon les techniques de production de polypeptides 
recombinants connues de l'homme du metier. Dans ce cas, la sequence d'acide 
nucleique utilisee est placee sous le controle de signaux permettant son expression 
20 dans un hote cellulaire. 

Un systeme efficace de production d'un polypeptide recombinant necessite 
de disposer d'un vecteur et d'une cellule hote selon Pinvention. 

Ces cellules peuvent etre obtenues par Pintroduction dans des cellules hotes 
d'une sequence nucleotidique inseree dans un vecteur tel que defini ci-dessus, puis 
25 la mise en culture desdites cellules dans des conditions permettant la replication 
et/ou l'expression de la sequence nucleotidique transferee. 

Les precedes utilises pour la purification d'un polypeptide recombinant sont 
connus de l'homme du metier. Le polypeptide recombinant peut etre purifie a partir 
de lysats et extraits cellulaires, du surnageant du milieu de culture, par des 
30 methodes utilisees individuellement ou en combinaison, telles que le 
fractionnement, les methodes de chromatographic, les techniques d'immunoaffinite 
a Paide d'anticorps monoclonaux ou polyclonaux specifiques, etc... 
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Les polypeptides selon la presente invention peuvent aussi etre obtenus par 
synthese chimique en utilisant Tune des nombreuses syntheses peptidiques connues, 
par exemple les techniques mettant en oeuvre des phases solides (voir notamment 
Stewart et al., 1984) ou des techniques utilisant des phases solides partielles, par 
5 condensation de fragments ou par une synthese en solution classique. 

Les polypeptides obtenus par synthese chimique et pouvant comporter des 
acides amines non naturels correspondants sont egalement compris dans P invention. 

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps 
chimeriques ou immunoconjugues, caracterises en ce qu'ils sont capables de 
10 reconnaitre specifiquement un polypeptide selon Pinvention, font partie de 
T invention. 

Des anticorps polyclonaux specifiques peuvent etre obtenus a partir d'un 
serum d'un animal immunise contre les polypeptides selon l'invention, notamment 
produit par recombinaison genetique ou par synthese peptidique, selon les modes 
1 5 operatoires usuels. 

On note notamment Pinteret d'anticorps reconnaissant de fa?on specifique 
certains polypeptides, variants, ou leurs fragments immunogenes, selon Pinvention. 

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps 
chimeriques ou immunoconjugues, caracterises en ce qu'ils sont capables de 
20 reconnaitre specifiquement les polypeptides de sequence SEQ ID N° 2 ou SEQ ID 
N° 5 sont particulierement preferes. 

Les anticorps monoclonaux specifiques peuvent etre obtenus selon la 
methode classique de culture d'hybridomes decrite par Kdhler et Milstein (1975). 

Les anticorps selon Pinvention sont, par exemple, des anticorps 
25 chimeriques, des anticorps humanises, des fragments Fab ou F(ab')2. lis peuvent 
egalement se presenter sous forme d'immunoconjugues ou d'anticorps marques afin 
d'obtenir un signal detectable et/ou quantifiable. 

L'invention concerne egalement des methodes pour la detection et/ou la 
purification d'un polypeptide selon Pinvention, caracterisees en ce qu'elles mettent 
30 en oeuvre un anticorps selon Pinvention. 

L'invention comprend en outre des polypeptides purifies, caracterises en ce 
qu'ils sont obtenus par une methode selon Pinvention. 
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Par ailleurs, outre leur utilisation pour la purification des polypeptides, les 
anticorps de Finvention, en particulier les anticorps monoclonaux, peuvent 
egalement etre utilises pour la detection de ces polypeptides dans un echantillon 
biologique. 

5 lis constituent ainsi un moyen d'analyse immunocytochimique ou immuno- 

histochimique de l'expression des polypeptides selon Finvention, notamment les 
polypeptides de sequence SEQ ID N° 2, SEQ ID N° 5 ou Tun de leurs variants, sur 
des coupes de tissus specifiques, par exemple par immunofluorescence, marquage a 
Tor, immuno-conjugu6s enzymatiques. 

10 lis peuvent permettre notamment de mettre en evidence une expression 

anormale de ces polypeptides dans les tissus ou prelevements biologiques. 

Plus generalement, les anticorps de F invention peuvent etre 
avantageusement mis en ceuvre dans toute situation ou l'expression d'un 
polypeptide selon F invention, normal ou mute, doit etre observee. 

15 Ainsi, un procede de detection d'un polypeptide selon Finvention dans un 

echantillon biologique, comprenant les etapes de mise en contact de F echantillon 
biologique avec un anticorps selon Finvention et de mise en evidence du complexe 
antigene-anticorps forme est egalement un objet de Finvention, ainsi qu'une trousse 
permettant de mettre en ceuvre un tel procede. Une telle trousse contient en 

20 particulier : 

a) un anticorps monoclonal ou polyclonal selon Finvention ; 

b) eventuellement des reactifs pour la constitution d'un milieu 
propice a la reaction immunologique ; 

c) les reactifs permettant la detection du complexe antigene- 
25 anticorps produit lors de la reaction immunologique. 

Les anticorps selon Finvention peuvent egalement etre utilises dans le 
traitement d'une maladie inflammatoire et/ou immune, ou d'un cancer, chez 
l'homme, lorsque Fon observe une expression anormale du gene IBD1 ou du gene 
IBDlprox. Une expression anormale signifie une surexpression ou l'expression 
30 d'une proteine mutee. 

Ces anticorps peuvent etre obtenus directement a partir de serum humain, ou 
a partir d'animaux immunises avec des polypeptides selon Finvention, puis 
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« humanises », et peuvent etre utilises tels quels ou dans la preparation d'un 
medicament destine au traitement des maladies precitees. 

Font egalement partie de Pinvention, les m&hodes de determination d'une 
variability allelique, d'une mutation, d'une deletion, d'une perte d'heterozygotie ou 
5 de toute anomalie genetique du gene selon Pinvention, caracteris6es en ce qu'elles 
mettent en oeuvre une sequence d'acide nucleique, un polypeptide ou un anticorps 
selon I'invention. 

L'invention fournit en effet la sequence des genes IBD1 et IBDlprox 
impliques dans des maladies inflammatoires et/ou immunes, et en particulier les 

10 M1CL Un des enseignements de Pinvention est de preciser les mutations dans ces 
sequences nucleiques ou polypeptidiques, qui sont liees a un phenotype 
correspondant a une des ces maladies inflammatoires et/ou immunes. 

On peut detecter ces mutations directement par analyse de Pacide nucleique 
et des sequences selon Pinvention (ADN genomique, ARN, ou ADNc), mais 

15 egalement par P intermediate des polypeptides selon Pinvention. En particulier, 
Putilisation d'un anticorps selon Pinvention qui reconnait un epitope portant une 
mutation permet de discriminer entre une proteine «saine» et une proteine 
« associee a une pathologie ». 

Ainsi, Petude du gene IBD1 dans diverses maladies inflammatoires et/ou 

20 immunes humaines montre ainsi qu'il existe des variants de sequence de ce gene 
dans la maladie de Crohn, la rectocolite hemorragique et le syndrome de Blau, 
comme demontre par les exemples. Ces variations de sequence aboutissent a des 
variations importantes de la sequence proteique deduite. En effet, elles sont soit 
localises sur des sites tres conserves de la proteine dans des domaines fonctionnels 

25 importants, soit elles aboutissent a la synthese d'une proteine tronquee. II est done 
extremement probable que ces alterations entrainent une modification de la fonction 
de la proteine et aient done un effet causal dans la survenue de ces maladies. 

La variete des maladies ou sont observees ces mutations suggere que le gene 
IBD1 est potentiellement important dans de nombreuses maladies inflammatoires 

30 et/ou immunes. Ce resultat est a rapprocher du fait que la region pericentromerique 
du chromosome 16 a ete decrite comme contenant des genes de susceptibilite a 
diverses maladies humaines telles que la spondylarthrite ankylosante ou le 
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rhumatisme psoriasique. On peut done considerer qu'IBDl a un role important dans 
un grand nombre de maladies inflammatoires et/ou immunes. 

En particulier, on peut associer IBD1 aux maladies inflammatoires 
granulomateuses. En effet, le Syndrome de Blau et la MC sont des maladies faisant 
5 partie de cette famille. On espere done trouver des variations dans le gene IBD1 
pour les autres maladies de la meme famille (sarcoi'dose, maladie de Behset...)- 

De plus, T implication de IBD1 dans les voies cellulaires aboutissant a 
Tapoptose souleve la question de son eventuel role carcinogene. En effet, il est 
attendu qu'une dysregulation de IBD1 puisse aboutir a une predisposition 
10 cancereuse. Cette hypothese est renforcee par le fait qu'il existe une predisposition 
au cancer du colon dans les maladies inflammatoires de l'intestin. IBD1 pourrait en 
partie expliquer cette susceptibilite au cancer et definir de nouvelles voies de 
carcinogenese. 

La description precise des mutations observables dans le gene IBD1 permet 

1 5 ainsi de poser les bases d'un diagnostic moleculaire des maladies inflammatoires et 
immunes bu son role est demontre. Une telle demarche, basee sur la recherche de 
mutations dans le gene, permettra de contribuer au diagnostic de ces maladies et 
eventuellement de reduire 1'importance de certains examens complementaires 
invasifs ou couteux. L' invention pose les bases d'un tel diagnostic moleculaire base 

20 sur la recherche de mutations dans IBD 1 . 

Le diagnostic moleculaire des maladies inflammatoires devrait aussi 
permettre d'ameliorer la classification nosologique de ces maladies et de mieux 
definir des sous-groupes de malades particuliers par leur caracteristiques cliniques, 
Tevolutivite de la maladie ou la reponse & certains traitements. A titre d'exemple, le 

25 demembrement des mutations existantes pourrait ainsi permettre de classer les 
colites actuellement indeterminees qui representent plus de 10% des maladies 
inflammatoires de Tintestin. Une telle demarche permettra de proposer une prise en 
charge pr6coce adaptee a chaque patient. D'une maniere generale, une telle 
demarche permet d'esperer pouvoir definir a terme une prise en charge 

30 individualisee de la maladie, en fonction du terrain genetique de chaque malade, 
incluant des mesures curatives et preventives. 

En particulier, on prefere une methode de diagnostic et/ou devaluation 
pronostique d'une maladie inflammatoire ou d'un cancer caracterisee en ce qu'on 



2806739 



21 

determine a partir d'un prelevement biologique d'un patient la presence d'au moins 
une mutation et/ou une alteration d'expression du gene correspondant a SEQ ID N° 
1 ou SEQ ID N° 4 par l'analyse de tout ou partie d'une sequence nucleique 
correspondant audit gene. On peut aussi etudier les genes SEQ ID N° 3 ou SEQ ID 
5 N°6. 

Cette methode de diagnostic et/ou devaluation pronostique peut etre utilisee 
de fa9on pr6ventive (etude d'une predisposition a ces maladies inflammatoires ou 
au cancer), ou afin de servir a Tetablissement et/ou la confirmation d'un etat 
clinique chez un patient. 

10 De preference, la maladie inflammatoire est une maladie inflammatoire du 

tube digestif, et le cancer est un cancer du tube digestif (intestin grele ou colon). 

L'enseignement de l'invention permet en effet de connaitre les mutations 
presentant un desequilibre de liaison avec les maladies inflammatoires du tube 
digestif, et qui sont done associees a de telles maladies. 

1 5 L'analyse peut etre effectuee par sequence de tout ou partie du gene, ou par 

d'autres methodes connues de Fhomme du metier. On peut en particulier utiliser 
des methodes bashes sur la PCR, par exemple la PCR-SSCP qui permet de detecter 
des mutations ponctuelles. 

On peut egalement effectuer l'analyse par fixation d'une sonde selon 

20 l'invention correspondant a l'une des sequences SEQ ID N° 1, 3, 4 ou 6 sur une 
puce a ADN et l'hybridation sur ces microplaques. Une puce a ADN contenant une 
sequence selon l'invention est egalement un des objets de l'invention. 

De meme, une puce a proteines contenant une sequence d'acides amines 
selon l'invention est aussi un objet de l'invention. Une telle puce a proteines permet 

25 l'etude des interactions entre les polypeptides selon l'invention et d'autres proteines 
ou des composes chimiques, et peut ainsi etre utile pour le criblage de composes 
interagissant avec les polypeptides selon l'invention. On peut egalement utiliser les 
puces a proteines selon l'invention pour detecter la presence d'anticorps diriges 
contre les polypetides selon l'invention dans le serum de patients. On peut aussi 

30 mettre en oeuvre une puce a proteines contenant un anticorps selon l'invention. 

L'homme du metier sait egalement mettre en oeuvre des techniques 
permettant l'etude de l'alteration de l'expression d'un gene, par exemple par l'etude 
de l'ARNm (en particulier par Northern Blot ou par des experiences de RT-PCR, 
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avec des sondes ou des amorces selon 1' invention), ou de la proteine exprimee, en 
particulier par Western Blot, en utilisant des anticorps selon l'invention. 

Le gene teste est de preference le gene de sequence SEQ ID N° 1, la maladie 
inflammatoire pour laquelle on cherche a predire la susceptibilite etant une maladie 
5 du tube digestif, en particulier la maladie de Crohn, ou la rectocolite hemorragique. 
Si Ton cherche a detecter un cancer, il s'agit de preference du cancer du colon. 

L' invention se rapporte egalement & des procedes d'obtention d'un allele du 
gene IBD1, associe a un phenotype detectable, comprenant les etapes suivantes : 

a) obtenir un echantillon d'acide nucleique d'un individu exprimant 
1 0 ledit phenotype detectable ; 

b) mettre en contact ledit echantillon d'acide nucleique avec un 
agent capable de detecter specifiquement un acide nucleique 
codant pour la proteine IBD1 ; 

c) isoler ledit acide nucleique codant pour la proteine IBD1 . 

15 Un tel procede peut etre suivi d'une etape de sequence de tout ou partie de 

1'acide nucleique codant pour la proline IBD1, ce qui permet de predire la 
susceptibilite a une maladie inflammatoire ou d'un cancer. 

L'agent capable de detecter specifiquement un acide nucleique codant pour 
la proteine IBD1 est avantageusement une sonde d'oligonucleotides selon 

20 Finvention, qui peut etre formee d'ADN, d'ARN, de PNA, modifies ou non. Les 
modifications peuvent inclure un marquage radioactif ou fluorescent, ou etre dues a 
des modifications dans les liaisons entre les bases (phosphorothioates, ou 
methylphosphonates par exemple). L'homme du metier connait les protocoles 
permettant d'isoler une sequence specifique d'ADN. L'etape b) du procede ci- 

25 dessus decrit peut egalement etre une etape d'amplification telle que decrite 
precedemment. 

L' invention se rapporte egalement a un procede de detection et/ou de dosage 
d'im acide nucleique selon l'invention dans un echantillon biologique, comprenant 
les etapes suivantes de mise en contact d'une sonde selon l'invention avec un 
30 Echantillon biologique et de detection et/ou dosage de l'hybride forme entre ledit 
polynucleotide et Tacide nucleique de 1'echantillon biologique. 

L'homme du metier sait mettre en ceuvre un tel procede, et peut en 
particulier utiliser une trousse de reactifs comprenant : 
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a) un polynucleotide selon l'invention, utilise en tant que sonde ; 

b) les reactifs necessaires a la mise en ceuvre d'une reaction 
d'hybridation entre ladite sonde et Facide nucleique de 
l'echantillon biologique ; 

5 c) les r6actifs n6cessaires k la detection et/ou le dosage de Phybride 

forme entre ladite sonde et l'acide nucleique de l'echantillon 
biologique ; 
qui est egalement un objet de l'invention. 

Une telle trousse peut egalement contenir des controles positifs ou negatifs 

1 0 afin d'assurer la qualite des r&ultats obtenus. 

Toutefois, afin de detecter et/ou doser un acide nucleique selon l'invention, 
1'homme du metier peut egalement effectuer une etape d'amplification a l'aide 
d' amorces choisies parmi les sequences selon P invention. 

Enfin, l'invention concerne Egalement les composes choisis parmi un acide 

15 nucleique, un polypeptide, un vecteur, une cellule, ou un anticorps selon 
l'invention, ou les composes obtenus par les procedes de criblage selon l'invention, 
a titre de medicament, en particulier pour la prevention et/ou le traitement d'une 
maladie inflammatoire et/ou immune ou d'un cancer, associe a la presence d'au 
moins une mutation du gene correspondant a SEQ ID N° 1 ou SEQ ID N° 4, de 

20 preference une maladie inflammatoire du tube digestif, en particulier la maladie de 
Crohn ou la rectocolite hemorragique. 

Les exemples qui suivent permettent de mieux comprendre les avantages de 
l'invention et ne doivent pas etre consideres comme limitant la portee de 
l'invention. 

25 DESCRIPTION DES FIGURES 

Figure 1 : tests de liaison gen&ique non parametrique pour la maladie de Crohn 
dans la region pericentromerique du chromosome 16 (d'apres Hugot et al., 1996). 
Analyse de liaison multipoint base sur Pidentite par descendance pour les 
marqueurs de la region pericentromerique du chromosome 16. Les distances 

30 genetiques entre marqueurs ont ete estimees grace au programme CRIMAP. Le lod 
score (MAPMAKER/SIBS) est indique sur la figure de gauche. Deux tests de 
pseudo vraisemblance ont ete developpes et rapportes sur la figure de droite. Le 
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premier (Tz) est analogue au test des moyennes. Le deuxieme (Tz2) est analogue au 
test de la proportion des paires d'affectes partageant deux alleles. 
Figure 2 : analyse de liaison genetique multipoint non parametrique. 78 families 
avec plusieurs apparentes atteints de Maladie de Crohn ont ete genotypees pour 26 
5 marqueurs de polymorphisme dans la region pericentromerique du chromosome 16. 
La localisation de chaque marqueur est symbolisee par une fleche. L'ordre des 
marqueurs et la distance les separant derive de Fanalyse des donnees 
experimentales avec le logiciel Crimap. Les filches sous la courbe indiquent les 
marqueurs SPN, D16S409 et D16S411 utilises dans la premiere etude publiee 

10 (Hugot et al., 1996).Les fleches situSes en haut de la figure correspondent aux 
marqueurs D16S3136, D16S541, D16S3117, D16S416 et D16S770 localises au 
maximum du test de liaison genetique. Les donnees de typage ont ete analysees a 
Taide du programme d'analyse multipoint non parametrique du logiciel Genehunter 
version 1 .3. Le maximum du NPL Score est de 3,33 (p=0,0004). 

15 Figure 3 : representation schematique de la proteine codee par IBD1. La proteine 
codee par IBD1 est representee horizontalement. Les differents domaines qui la 
composent sont indiques sur la figure avec le numero de reference des acides 
amines correspondant au debut et a la fin de chaque domaine. La proteine est 
constitute d'un domaine CARD, d'un domaine liant les nucleotides (NBD) et de 

20 motifs riches en leucines (LRR). 
EXEMPLES 

Exemple 1 : localisation fine de IBD1 

La premiere etape vers Identification du gene IBD1 a ete de reduire la taille 
de la region genetique d'interet, initialement centree sur le marqueur D16S41 1 situt 
25 entre D16S409 et D16S419 (Hugot et al, 1996 et fig. 1). Un groupe de marqueurs 
proches (carte genetique a haute resolution) a ete utilise pour mieux preciser la 
region genetique et a permis de completer les analyses de liaison genetique et de 
rechercher un desequilibre de liaison genetique avec la maladie. 

L'etude a porte sur 78 families comportant au moins 2 apparentes atteints de 
30 MC, qui correspondaient a 119 paires d'affectes. Les families comportant des 
malades atteints de RCH ont ete exclues de l'etude. 

Vingt-six marqueurs genetiques de polymorphisme de type microsatellites 
ont ete etudies. Ces marqueurs formaient ensemble une carte a haute resolution avec 
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une distance moyenne entre marqueurs de l'ordre de lcM dans la region genetique 
d'interet. Les caracteristiques des marqueurs etudies sont rapportes sur Ie tableau 1 . 

Tableau 1. Marqueurs polvmorphes de type microsatellite utilises pour la 
localisation fine de IBD1 



Nom du marqueur de 


Distance 


Amorces PCR 


polymorphisme 


cumulee (cM) 




D16S3120 


0 


SEQ ID N° 7 


(AFM326vc5) 




SEQ ID N° 8 


D16S298 


2,9 


SEQ ID N° 9 


(AFMal89wg5) 




SEQ IDN° 10 


D16S299 


3,4 


SEQ IDN° 11 






SEQ ID N° 12 


SPN 


3,9 


SEQ ID N° 13 






SEQ ID N° 14 


D16S383 


4,3 


SEQ ID N° 15 






SEQ ID N° 16 


D16S753 


4,9 


SEQ ID N° 17 


(GGAA3G05) 




SEQ ID N° 18 


D16S3044 


5,8 


SEQ IDN° 19 


(AFMa222za9) 




SEQ ID N° 20 


D16S409 


5,8 


SEQ ID N° 21 


(AFM161xal) 




SEQ ID N° 22 


D16S3105 


6,1 


SEQ ID N° 23 


(AFMb341zc5) 




SEQ IDN°24 


D16S261 


6,8 


SEQ ID N° 25 


(MFD24) 




SEQ ID N° 26 


D16S540 


6,9 


SEQ ID N° 27 


(GATA7B02) 




SEQ ID N° 28 


D16S3080 


7 


SEQ ID N° 29 


(AFMb068zb9) 




SEQ ID N° 30 


D16S517 


7 


SEQ ID N° 31 


(AFMal32we9) 




SEQ ID N° 32 


D16S411 


8 


SEQ IDN°33 


(AFM186xa3) 




SEQ ID N° 34 


D16S3035 


10,4 


SEQ 1DN°35 


(AFMal89wg5) 




SEQ ID N° 36 


D16S3136 


10,4 


SEQ ID N° 37 


(AFMa061xe5) 




SEQ ID N° 38 


D16S541 


11,4 


SEQ ID N° 39 


(GATA7E02) 




SEQ ID N° 40 


D16S3117 


11,5 


SEQ ID N° 41 


(AFM288wbl) 




SEQ ID N° 42 


D16S416 


12,4 


SEQ ID N° 43 


(AFM210yg3) 




SEQ IDN°44 



26 
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D16S770 
(GGAA20G02) 


13,2 


SEQ ID N° 45 

OPA IT\ XTO >1 ZT 

SbQ ID N 46 


D16S2623 
(GATA81B12) 


15 


SEQ ID N° 47 

OPA Tl~\ X TO /I O 

SEQ ID N 48 


D16S390 


16,5 


SEQ ID N° 49 
bbQ ID IS 50 


D16S419 

(AFM225zf2) 


20,4 


SEQ ID N° 51 
SEQ ID N° 52 


D16S771 
(GGAA23C09) 


21,8 


SEQ ID N° 53 
SEQ ID N° 54 


D16S408 
(AFMl37xf8) 


25,6 


SEQ ID N° 55 
SEQ IDN°56 


D16S508 
(AFM304xfl) 


38,4 


SEQ ID N° 57 
SEQ IDN°58 



Chaque marqueur est repertorie selon la nomenclature internationale et le 
plus souvent par le nom propose par le laboratoire d'origine. Les marqueurs 
apparaissent selon leur ordre sur le chromosome (de 16p vers 16q). La distance 
genetique entre les marqueurs (en centiMorgan Kosambi, calculee par le 
5 programme Crimap a partir des donnees experimentales) est indiquee dans la 
deuxieme colonne. Le premier marqueur polymorphe est pris arbitrairement comme 
point de reference. Les oligonucleotides ayant servi a la reaction de polymerisation 
en chaine (PCR) sont indiques dans la troisieme colonne. 

Le genotypage de ces marqueurs microsatellites a repose sur la technologie 
10 des sequenceurs automatiques utilisant des amorces fluorescentes. Brievement, 
apres amplification, les produits de reaction de polymerisation en chaine (PCR) 
fluorescents ont ete deposes sur un gel de polyacrylamide sur sequenceur 
automatique selon les recommandations du constructeur (Perkin Elmer). La taille 
des alleles pour chaque sujet a ete deduite grace au logiciels Genescan R et 
15 Genotyper R . Les donnees ont ensuite 6t6 conservees sur une base informatique 
integree contenant les donnees genealogiques, phenotypiques et genetiques. Elles 
ont alors ete utilisees pour les analyses de liaison genetique. 

Plusieurs controles qualite ont ete realises tout au long de la procedure de 
genotypage: 

20 - double lecture independante des donnees de genotypage, 

- utilisation d f un ADN standard servant de controle interne pour chaque 
migration electrophoretique, 

- controle de la gamme de taille de chaque allele observe, 
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- recherche d'erreurs de transmission mendelienne , 

- calcul de la distance genetique entre marqueurs (programme CRIMAP) 
et comparaison de celle-ci avec les donnees de la litterature, 

- nouveau typage des marqueurs pour lesquels il etait observe une 
5 recombinaison entre marqueurs proches. 

Les donnees de genotypage ont ete analysees par des methodes de liaison 
genetique multipoint non parametrique (Programme GENEHUNTER version 1.3). 
L'informativite du systeme de marqueurs etait superieure a 80% pour la region 
etudiee. Le maximum du test (NPL= 3,33; P = 0,0004) a ete obtenu pour les 

10 marqueurs D16S541, D16S31 17, D16S770 et D16S41 6 (figure 2). 

Les donnees de typage pour ces 26 marqueurs de polymorphisme ont aussi 
ete analysees a la recherche d'un desequilibre de transmission. Deux groupes de 108 
et 76 families avec un ou plusieurs malades atteints de MC ont ete etudies. Le test 
statistique de desequilibre de transmission a ete decrit par Spielman et al. (1993). II 

1 5 n'a ete pris en compte dans ce travail qu'un seul malade par famille et la valeur de p 
a ete corrigee par le nombre d'all&les testes pour chaque marqueur etudie. 

Un desequilibre de transmission a ete observe pour les alleles 4 et 5 (taille 
205, resp. 207 paires de bases) du marqueur D16S3136 (p=0,05, resp. p=0,01). 

Ces resultats suggestifs d'une association entre le marqueur D16S3136 et la 

20 MC ont conduit a construire une cartographie physique de la region genetique 
centree sur D16S3136 et a etablir la sequence d'un segment d'ADN genomique de 
grande taille (BAC) contenant ce site polymorphe. II a alors ete possible d'identifier 
et d'analyser un plus grand nombre de marqueurs de polymorphisme dans le 
voisinage de D16S3136 ainsi que de definir et d'etudier les sequences transcrites 

25 presentes dans la region. 

Exemple 2 : cartographie physique de la region IBD1 

Un contig de fragments d'ADN genomique, centre sur les marqueurs 
D16S3136, D16S3117, D16S770 et D16S416, a ete genere a partir des banques 
30 d'ADN genomique humain de la fondation Jean Dausset/CEPH. Les segments 
d'ADN chromosomique ont ete identifies a partir de certains marqueurs de 
polymorphisme utilises dans la cartographie genetique fine (D16S411, D16S416, 
D16S541, D16S770, D16S2623, D16S3035, D16S31 17 et D16S3136). Pour chaque 
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marqueur, une banque de chromosomes artificiels de bacteries (BAC) a ete criblee 
par PCR a la recherche de clones contenant la sequence du marqueur. Selon que les 
sequences testes etaient ou non pr£sentes sur les clones de BAC il a ete alors 
possible d'organiser les clones entre eux a l'aide du logiciel Segmap version 3.35. 
5 On a pu etablir, pour les BACs, une organisation continue (contig) couvrant 

la region genetique d'interet, selon une methode connue de l'homme du metier 
(Rouquier et al., 1994 ; Kim et al., 1996 ; Asakawa et al., 1997). Pour ce faire, les 
extremites des BACs identifies ont ete sdquencees et ces nouvelles donnees de 
sequence ont alors servi a cribler iterativement les banques de BACs. A chaque 

10 criblage, le contig de BAC a alors progresse d'un pas jusqu'a l'obtention d'un 
continuum de clones chevauchants. La taille de chaque BAC participant au contig a 
ete deduite de son profil de migration sur gel d'agarose en champ pulse. 

On a ainsi construit un contig de BAC contenant 101 BACs et s'etendant sur 
une distance globale de plus de 2,5 Mb avec une redondance moyenne de 5,5 BAC 

15 a chaque point du contig. La taille moyenne des BAC est de 1 36kb. 

Exemple 3 : sequencage du BAC hb87M0 

Le BAC de ce contig contenant le marqueur de polymorphisme D16S3136 
(appele hb87M0), dont la taille 6tait de 163761 bp a ete sequence selon la methode 

20 dite du "coup de fusil". En bref, TADN du BAC a ete fragmente par sonication. Les 
fragments d'ADN ainsi generes ont ete soumis a une electrophorese en gel d'agarose 
et ceux dont la taille etait superieure a 1,5 kb ont ete elus pour etre analyses. Ces 
fragments ont ensuite ete clones dans le phage ml 3 lui meme introduit dans des 
bacteries rendues competentes par electroporation. Apres culture, l'ADN des clones 

25 a ete recupere et sequence par des methodes de sequencage automatique a l'aide 
d'amorces fluorescentes du vecteur ml 3 sur sequenceur automatique. 

1526 sequences differentes d'une taille moyenne de 600 bp ont ete generees, 
qui ont ete organisees entre elles grace au logiciel Polyphredphrap R aboutissant a un 
contig de sequence couvrant I'ensemble du BAC. La sequence ainsi generee avait 

30 une redondance moyenne de 5,5 Equivalents genomiques. Les rares (n=5) 
intervalles de sequence non representes dans la banque de clones ml 3 ont ete 
combles en generant des amorces de PCR spScifiques, de part et d ? autre de ces 
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intervalles, et en analysant le produit de PCR derive de TADN genomique d'un sujet 
sain. 

Des homologies de sequence avec des sequences disponibles dans les bases 
de donnees genetiques publiques (Genbank) ont ete recherchees. Aucun gene connu 
5 n'a pu etre identifie dans cet intervalle de 163 kb. Plusieurs EST ont et6 positionnes 
suggerant que des genes inconnus etaient contenus dans cette sequence. Ces EST 
issus des bases de donnees genetiques publiques (Genbank, GDB, Unigene, dbEST) 
portaient les references suivantes : AI167910, AI011720, Rn24957, Mm30219, 
hsl32289, AA236306, hs87296, AA055131, hsl51708, AA417809, AA417810, 
10 hs61309, hsl 16424, HUMGS01037, AA835524, hsl05242, SHGC17274, 
hsl46128, hsl22983, hs87280 et hsl35201. La recherche d'exons putatifs a l'aide 
du programme informatique GRAIL a permis d'identifier plusieurs exons potentiels, 
sites de polyadenylation et sequences promotrices. 

15 Exemple 4 : etudes de desequilibre de transmission 

12 marqueurs de polymorphisme bialleliques (SNP) ont ete identifies dans 
une region s'etendant sur environ 250 kb et centree sur le BAC hb87M0. Ces 
polymorphismes ont ete generes par analyse de la sequence d'une dizaine de 
malades independants atteints de MC. Le sequen9age a 6t€ le plus souvent realise au 

20 niveau d'EST connus et positionnes sur le BAC ou a son voisinage. Des exons 
putatifs, predits par le programme informatique GRAIL ont aussi ete analyses. Les 
caracteristiques des marqueurs polymorphes ainsi identifies sont rapportees sur le 
tableau 2. 

25 Tableau 2. Caracteristiques de marqueurs de polymorphisme bialleliques etudies 
dans la region de IBD1 



I 


II 


III 


IV 


V 


VI 


1 


KIAA0849ex9 


PCR-AS 




SEQ ID N° 88 a 90 


116 


2 


hb27GHF 


PCR-RFLP 


Bsrl 


SEQ ID N° 86, 87 


185 












116 












69 


3 


Ctg22Exl 


PCR-RFLP 


Rsal 


SEQ ID N° 84, 85 


381 












313 
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69 


A 

4 


OXTT» 1 

SNrl 


PCR-AS 




C?T~:C\ TT~\ XTO Ol A 0"3 

bbQ ID N ol a oJ 


A 1 A 

41U 


5 


ctg2931-3ac/ola 


LO 




SEQ ID N° 78 a 80 


51 
49 


6 


ctg2931-5ag/ola 


T /"V 

LO 




SEQ ID N 75 a 77 


44 
42 


7 


SNP3-2931 


PCR-AS 




SEQ ID N° 72 a 74 


245 


8 


Ctg25Exl 


PCR-RFLP 




SEQ ID N° 70, 71 


207 
122 
85 


9 


CTG35 Ex A 


PCR-AS 




nr>A TT> XTO Z'T i /""A 

SEQ ID N° 67 a 69 


333 


10 


ctg35 ExC 


PCR-AS 




SEQ ID N 64 a 66 


1 AO 

198 


1 1 


D16S31 36 






5>bQ 11J In 51, 3s 




12 


hbl33Dlf 


PCR-RFLP 


Taql 


- SEQ ID N° 62, 63 


369 
295 
74 


13 


D16S3035 






SEQIDN°35, 36 




14 


ADCY7 int7 


PCR-AS 




SEQ ID N° 59 a 61 


140 



PCR-AS : PCR-allele specifique ; LO : Ligature d'oligonucleotides 



Les 12 marqueurs de polymorphisme bialleliques nouvellement decrits dans 
ce travail sont repertories dans ce tableau. Pour chacun d'eux sont indiques : 

- le locus (colonne I) 
5 - le nom (colonne II) 

- la technique de genotypage utilisee (colonne III) 

r enzyme de restriction eventuellement utilisee (colonne IV) 

- les amorces oligonucleotidiques uttlisees pour la reaction de 
polymerisation en chaine ou pour la ligature (colonne V) 

10 - la taille des produits attendus lors du typage (colonne VI) 

199 families comportant 1 ou plusieurs malades atteints de MC ont ete 
typees pour ces 12 marqueurs de polymorphisme ainsi que pour les marqueurs 
D16S3035 et D16S3136 localises sur le BAC hb87bl0. Les families comportant des 
malades atteints de RCH n'ont pas ete prises en compte. Les methodes de typage 
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des polymorphismes etudies ont ete variables en fonction du type de 
polymorphisme faisant appel a : 

- la technique de PCR-RFLP (amplification suivie de digestion 
enzymatique du produit de PCR) quand le polymorphisme etait situe sur 

5 un site de restriction enzymatique. 

- PCR avec amorces specifiques du site polymorphe : amplification 
differentielle des deux alleles en utilisant des amorces specifiques de 
chaque allele. 

- Test de ligation d'oligonucleotides : ligation differentielle utilisant des 
10 oligonucleotides specifiques de chaque allele, suivie d'electrophorese en 

gel de polyacrylamide. 
Les donnees de typage ont ensuite ete analysees selon un test de desequilibre 
de transmission (programme informatique TDT du logiciel GENEHUNTER version 
2). Pour les families comportant plusieurs apparent^ atteints, un seul malade a ete 

15 pris en compte pour l'analyse. En effet, la prise en compte de plusieurs malades 
apparentes pose le probleme de non independance des donnees dans les calculs 
statistiques et peut induire une inflation de la valeur du test. Le malade servant a 
l'analyse a ete tire au sort au sein de chaque famille par une procedure automatique 
de randomisation. Compte tenu de cette randomisation, la valeur du test statistique 

20 obtenu ne representait qu r un seul echantillon possible issu du groupe de families 
etudiees. Afin de ne pas limiter Tanalyse a ce seul echantillon possible et pour 
mieux apprehender la robustesse des resultats obtenus, pour chaque test, une 
centaine d'echantillons ateatoires ont ainsi ete generes et analyses. 

Les marqueurs ont ete etudies separement puis groupes selon leur ordre sur 

25 le segment chromosomique (KIAA0849ex9 (locus 1), hb27GHF (locus 2), 
Ctg22Exl (locus 3), SNP1 (locus 4), ctg2931-3ac/ola (locus 5), ctg2931-5ag/ola 
(locus 6), SNP3-2931 (locus 7), Ctg25Exl (locus 8), CTG35ExA (locus 9), 
ctg35ExC (locus 10), dl6s3136 (locus 11), hbl33D If (locus 12), D16S3035 (locus 
13), ADCY7int7 (locus 14)) (tableau 2). Les haplotypes comportant 2, 3 et 4 

30 marqueurs consecutifs ont ainsi ete analyses en utilisant toujours la meme strategie 
(100 echantillons aleatoires en prenant pour chaque famille un seul individu atteint). 

Pour chaque echantillon teste, il n'a ete pris en compte que les genotypes (ou 
haplotypes) portes par au moins 10 chromosomes parentaux. En moyenne 250 tests 
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differents ont ainsi ete realises pour chaque echantillon. II a alors ete possible de 
deduire le nombre de tests attendus positifs pour chaque seuil de signification et de 
comparer cette distribution a la distribution observee. Pour les sujets sains, la 
distribution des tests n'est pas differente de celle attendue selon le hasard (% 2 = 2,85, 
5 ddl=4, p=0,58). Pour les sujets malades, au contraire, il existe un exces de tests 
positifs temoignant de l'existence d'un desequilibre de transmission dans la region 
etudiee. 

Les r6sultats des tests de desequilibre de transmission pour chaque marqueur 
de polymorphisme pris isolement et pour les haplotypes montrant les plus forts 

10 desequilibres de transmission ont montre que les marqueurs suivants sont en 
desequilibre de liaison avec la maladie: Ctg22Exl (locus 3), SNP1 (locus 4), 
ctg2931-5ag/ola (locus 6), SNP3-2931 (locus 7), Ctg25Exl (locus 8) et ctg35ExC 
(locus 10). Ces marqueurs s'etendent sur une region d'environ 50kb (positions 
74736 a 124285 sur la sequence de hb87M0). 

15 Les haplotypes les plus fortement associes avec la maladie de Crohn 

s'etendent eux aussi sur cette region. Ainsi, pour la majorite des echantillons 
aleatoires, le test de transmission etait positif (p < 0,01) pour des haplotypes 
combinant les marqueurs suivants : 

- locus 5-6, locus 6-7, locus 7-8, locus 8-9, locus 9-10, Iocusl0-1 1 
20 - locus 5-6-7, locus 6-7-8, locus 7-8-9, locus 8-9-10, locus 9-10-1 1 

- locus 5-6-7-8; locus 6-7-8-9, locus 7-8-9- 1 0, 

L'haplotype de susceptibilite le plus a risque est defini par les locus 7 a 10. II 
s'agit de l'haplotype 1-2-1-2 (tableau 2). 

Les marqueurs testes sont, comme attendu, le plus souvent en desequilibre 
25 de liaison entre eux. 

Exemple 6 : Identification du gene IBD1 

Les groupements d'EST (references Unigene : Hs 135201, Hs87280, 
Hsl22983, Hsl46128, Hsl05242, Hsl 16424, Hs61309, Hsl51708, Hs 87296 et 
30 Hsl32289) publies et presents sur le BAC hb87bI0 ont ete etudies a la recherche 
d'une sequence d'ADN complementaire (ADNc) plus complete. Pour IBDlprox, les 
clones disponibles dans les banques publiques ont ete sequences et les sequences 
organisees entre elles. Pour IBD1, une banque d'ADN complementaire de sang 
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peripherique (Stratagene human blood cDNA lambda zapexpress ref 938202) a ete 
criblee par les produits de PCR genres a partir des EST connus selon les modalites 
proposees par le fabriquant La sequence des ADNc ainsi identifies a ensuite servi a 
un nouveau criblage de la banque d'ADNc et ainsi de suite jusqu'a 1'obtention de 
5 1'ADNc presente. 

L'EST hsl35201 (UniGene) a permis d'identifier un ADNc ne figurant pas 
sur les bases de donnees genetiques disponibles (Genbank) II correspond done a un 
nouveau gfene humain. La comparaison de la sequence du cDNA et de l'ADN 
genomique a montre que ce gene est constitue de 1 1 exons et 10 introns. Un exon 
10 supplemental, en position 5' par rapport au cDNA identifie est predit par 1'analyse 
de la sequence avec le logiciel Grail. Ces exons sont tres homologues avec les 
premiers exons du gene CARD4/NODL Considerant l'ensemble des exons 
identifiees et l'exon putatif supplemental, ce nouveau gene apparait avoir une 
structure genomique tres proche de celle de CARD4/NOD1. Par ailleurs, en amont 
15 du premier exon putatif figure un site d'initiation de la transcription. Pour 
l'ensemble de ces raisons, l'exon putatif a ete considere comrae participant a ce 
nouveau gene. L'ADNc reporte en annexe (SEQ ID N° 1) comporte done l'ensemble 
de la sequence identifiee plus la sequence predite par la modelisation informatique, 
l'ADN complementaire ddbutant arbitrairement au premier codon ATG de la 
20 sequence codante predite. Le gene comporte done 12 exons et 11 introns. La 
structure intron-exon du gene est rapportee sur la SEQ ID N° 3. 

La sequence proteique deduite de la sequence nucleotidique, comporte 1041 
acides amines (SEQ ID N° 2). Cette sequence n'a pas non plus ete retrouvee sur les 
bases de donnees biologiques (Genpept, pir, swissprot). 
25 L'etude de la sequence proteique deduite montre que ce gene contient trois 

domaines fonctionnels differents (figure 3) : 

- Un domaine CARD (Caspase Recruitment Domain) connu pour etre 
implique dans l'interaction entre proteines regulatrices de l'apoptose et 
de l'activation de la voie NFkappa B. Le domaine CARD permet de 
30 classer cette nouvelle proteine dans la famille des proteines CARD dont 

les membres les plus anciens sont CED 4, APAF1 et RICK. 
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Un domaine NBD (Nucleotide Binding Domaine) comportant un site de 
reconnaissance de l'ATP et un site de liaison du Magnesium. La proteine 
doit done avoir une activite kinase tres probable. 
- Un domaine LRR (Leucine Rich Domain) suppose participer a 
5 Tinteraction entre proteines par analogie avec d f autres domaines 

proteiques decrits . 

Par ailleurs, le domaine LRR de la proteine permet d'affilier la proteine a 
une famille de proteines impliquees dans la signalisation intracellulaire et presentes 
tant chez les plantes que chez les animaux. 

10 La comparaison de ce nouveau gene avec les genes pr^cedemment identifies 

et disponibles dans les bases de donnees publiques montre que celui-ci est tres 
homologue avec CARD4/NOD1 (Bertin et al., 1999 ; Inohara et al., 1999). Cette 
homologie porte sur la sequence de l'ADN complementaire, la structure intron-exon 
du gene et la sequence proteique. L'identite de sequence des 2 ADN 

1 5 complementaires est de 58%. Une similitude est egalement observee au niveau de la 
structure introns-exons. L'homologie de sequence au niveau proteique est de Pordre 
de 40%. 

La similitude entre ce nouveau gene et CARD4/NOD1 suggere que, comme 
CARD4/NOD1, la proteine IBD1 est impliquee dans la regulation de l'apoptose et 

20 de 1'activation de NF-kappa B (Bertin et al., 1999; Inohara et al., 1999). La 
regulation de l'apoptose cellulaire et Tactivation de NF-kappa B sont des voies de 
signalisation intracellulaire essentielles dans les reactions immunitaires. En effet, 
ces voies de transduction du signal sont les voies effectrices des proteines de la 
famille du recepteur du TNF (Tumor Necrosis Factor) impliquees dans les 

25 interactions cellule-cellule et la reponse cellulaire aux differents mediateurs de 
Tinflammation (cytokines). Le nouveau gene apparait done comme potentiellement 
important a la reaction inflammatoire, de fa<?on generate. 

L' expression tissulaire de IBD1 a ete ensuite etudiee par la technique du 
Northern Blot. Un transcrit de 4.5 kb est visible dans la plupart des tissus humains. 

30 La taille du transcrit est conforme avec la taille predite par 1'ADNc. Le transcrit de 
4.5 kb semble en tres faible abondance dans l'intestin grele et le colon. II est par 
contre tres fortement exprime dans les globules blancs. Ceci est en accord avec des 
donnees cliniques sur les transplantations qui suggerent que la maladie de Crohn est 
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potentiellement une maladie liee aux cellules immunitaires circulantes. En effet, la 
transplantation intestinale n'empeche pas la recidive sur le greffon dans la maladie 
de Crohn tandis que la transplantation de moelle osseuse semble avoir un effet 
b6n£fique sur Involution de la maladie. 
5 Certaines donnees font egalement penser a un epissage alternatif, qui 

pourrait slaverer un element important dans la possibility de generer des mutants 
qui pourraient jouer un role dans le developpement de maladies inflammatoires. 

Le promoteur du gene IBD1 n f est actuellement pas identifie avec precision. 
II est cependant raisonnable de penser, par analogie avec un tres grand nombre de 

10 genes que celui-ci reside, au moins pour partie, immediatement en amont du g£ne, 
dans la portion 5' de celui-ci. Cette region genetique contient des sequences 
transcrites comme en temoigne la presence d'EST (HUMGS01037, AA835524, 
hs.105242, SHGC17274, hs.146128, hs.122983, hs.87280). Les clones ATCC 
contenant ces sequences ont ete sequences et analyses dans le laboratoire, 

15 permettant de mettre en evidence une organisation en exons et en introns avec 
d'eventuels epissages alternatifs. Ces donnees suggerent Texistence d'un autre gene 
(nomme IBDlprox en raison de sa proximite d'IBDl). La sequence partielle de 
1'ADN complementaire de IBDlprox est rapportee (SEQ ID N° 4) de meme que sa 
structure intron-exon sur la SEQ ID N° 6. 

20 La traduction des ADNc correspondant a IBDlprox aboutit a une proteine 

contenant une homeobox. L'analyse de plusieurs ADNc du gene suggere cependant 
Existence d'epissages alternatifs. IBDlprox, selon un des epissages alternatifs 
possibles correspond a TEST anonyme HUMGS01037 dont TARN est exprime de 
maniere plus importante dans les lignees leucocytaires difFerenciees que dans les 

25 lignees non differenciees. 

Ainsi, il est possible que ce gene puisse avoir un role dans l'inflammation et 
la differentiation cellulaire. II peut done lui aussi etre considere comme un bon 
candidat pour la susceptibilite aux MICI. L'association entre MC et le 
polymorphisme ctg35 ExC localise sur la sequence codante de IBDlprox renforce 

30 cette hypothese meme si ce polymorphisme n'entraine pas de variation de sequence 
au niveau proteique. 

La relation fonctionnelle entre IBD1 et IBDlprox n'est actuellement pas 
etablie. Toutefois, la forte proximite entre les deux genes pourrait refleter une 
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interaction entre ceux-ci. Dans ce cas, la localisation « tete -beche » de ces genes 
suggere qu'ils puissent avoir des modes de regulation communs ou interdependants. 

Exemple 6 : identifications de mutations du gene IBD1 dans les maladies 
5 inflammatoires 

Afin de confirmer le role de IBD1 dans les maladies inflammatoires, la 
sequence codante et les jonctions intron-exon du gene ont ete sequencees de l'exon 
2 a l'exon 12 inclus chez 70 sujets independants, a savoir : 50 malades atteints de 
MC, 10 malades atteints de RCH, 1 malade atteint de syndrome de Blau et 9 
10 temoins sains. Les malades etudies etaient pour la plupart des formes familiales de 
la maladie et Etaient souvent porteurs de 1'haplotype de susceptibilite defini par les 
etudes de desequilibre de transmission. Les temoins sains etaient d'origine 
caucasienne. 

24 variants de sequence ont ainsi pu etre identifies sur ce groupe de 70 
1 5 personnes non apparentees(tableau 3). 



Tableau 3. Mutations observees dans le gene IBD1 



Exon 


Variant 


Variant 


Maladie de 


Rectocolite 


Temoins 




nucleotidique 


proteique 


Crohn 


hemorragique 


sains 


1 


non teste 










2 


G417A 


silencieux 








2 


C537G 


silencieux 








3 


aucun 










4 


T805C 


S269P 


48/100 


6/20 


3/18 


4 


A869G 


N290S 


0 


0 


1/18 


4 


C905T 


A302V 


1/100 


0 


0 


4 


C1283T 


P428L 


1/100 


0 


0 


4 


C1284A 


silencieux 








4 


C1287T 


silencieux 








4 


T1380C 


silencieux 








4 


T1764G 


silencieux 








4 


G1837A 


A613T 


1/100 


0 


0 


4 


C2107T 


R703W 


10/10 


1/20 


1/18 


4 


C2110T 


R704C 


4/10 


1/20 


0 


5 


G2365A 


R792Q 


1/100 


0 


0 


5 


G2370A 


V794M 


0 


1/20 


0 


5 


G2530A 


E844K 


1/10 


0 


0 
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A2558G 


N853S 


1/100 

1/1 \J\J 


o 


I 0 


6 


A2590G 


M864V 


1/100 


o 


o 


7 


aucun 










8 


G2725C 


G909R 


7/100 


0 


0 


8 


C2756A 


A919D 


1/100 


0 


0 


9 


G2866A 


V956I 


2/100 


1/20 


3/18 


10 


C2928T 


silencieux 








11 


3022insC 


stop 


20/100 


0 


0 


12 


aucun 











Les mutations autres que silencieuses observees dans chaque exon sont 
rapportees. Elles sont indiquees par la variation de la chaine peptidique. Pour 
chaque mutation et pour chaque phenotype etudie, il est indique le nombre de fois 
ou la mutation est observe, rapporte au nombre de chromosomes testes. 



5 Aucun variant de sequence fonctionnel n'a ete identifie dans les exons 1 a 3 

(correspondants au domaine CARD de la proteine). Les exons 7 et 12 n'ont pas non 
plus montre de variation de sequence. Certains variants correspondaient a des 
polymorphismes deja identifies et types pour les etudes de desequilibre de 
transmission, a savoir : 
1 0 -Snp3-293 1 : variant nucleotidique T805C, variant proteique S269P 

-ctg2931-5ag/ola : variant nucleotidique T1380C (silencieux) 
-ctg2931-3ac/ola : variant nucleotidique T1764G (silencieux) 
-SNP1 : variant nucleotidique C2107T, variant proteique R703W 
Plusieurs variations de sequence etaient silencieuses (G417A, C537G, 
15 C1284A, C1287T, T1380C, T1764G, C2928T) et n'entrainaient pas de modification 
de la sequence proteique. Elles n'ont pas ete etudiees davantage ici. 

Pour les 16 variations de sequence non silencieuses, il a ete observe des 
variants de sequence proteique chez 43/50 MC contre 5/9 temoins sains et 6/10 
RCH. L'existence d'une ou plusieurs variation(s) de sequence apparaissait associee 
20 au phenotype MC. II existait souvent plusieurs variations de sequence chez un 
meme individu atteint de MC suggerant un effet parfois recessif du gene pour la 
MC. A l'inverse, aucun homozygote ou heterozygote composite n'etait observe 
parmi les patients atteints de RCH ou parmi les tdmoins sains. 

Certains variants non silencieux etaient presents a la fois chez les malades 
25 atteints de RCH ou de MC et chez les sujets sains. II s'agissait des variants S269P, 
N290S, R703W et V956I situes dans les exons 2, 4 et 9. Un complement 
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d'information semble done necessaire avant de retenir un eventuel role fonctionnel a 
ces variants de sequence. 

V956I est une variation de sequence conservative (acides amines 
aliphatiques). 

5 Le variant de sequence S269P correspond a une variation de classe d'acide 

amine (hydroxyle en immunoacide) au debut du domaine liant les nucleotides. II en 
desequilibre de transmission avec la MC. II s'agit en effet du polymorphisme Snp3 
(Cf. supra). 

R703W aboutit a une modification de la classe de 1'acide amine (aromatique 
10 au lieu de basique). Cette modification survient dans la region intermediate entre 
les domaines NBD et LRR, region conservee entre IBD1 et CARD4/NOD1 . Un role 
fonctionnel peut done etre suspect^ pour ce polymorphisme. Cette variation de 
sequence (correspondant au site polymorphs Snpl) est plus souvent transmise au 
malades atteints de MC que ne le veut le hasard (Cf. supra) confirmant que ce 
15 polymorphisme est associe a la MC. II est possible que la prdsence de ce mutant 
chez les sujets sains temoigne d'une penetrance incomplete de la mutation comme 
cela est attendu pour les maladies genetiques complexes telles que les maladies 
inflammatoires chroniques de l'intestin. 

Le variant R704C, situe immediatement a cote de R703 W a pu etre identifie 
20 a la fois dans la MC et dans la RCH. II correspond lui aussi a une variation non 
conservative de la proteine (acide amine soufre au lieu de basique) sur la meme 
region proteique, suggerant un effet fonctionnel aussi important pour R704C que 
pour R703W. 

D'autres variations de sequence sont specifiques de la MC de la RCH ou du 
25 syndrome de Blau. 

Certaines variations de sequence sont au contraire rares, presentes chez un 
ou quelques malades (A613T, R704C, E844K, N853S, M864V, A919D). II s'agit 
toujours de variations entrainant des modifications non conservatives de la proteine 
dans des domaines leucine riches, a des positions importantes au sein de ces 
30 domaines. Ces differents elements suggerent que ces variations ont un role 
fonctionnel. 
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Deux variations de sequence (G909R, L1008P*) sont retrouvees chez un 
assez grand nombre de maladies de Crohn (respectivement 7/50 et 16/50) alors 
qu'elles ne sont pas detectees chez les temoins ou chez les malades atteints de RCH. 

La deletion/insertion d'une guanosine au niveau du codon 1008 aboutit a une 
5 transformation de la troisieme leucine de l'helice alpha du dernier LRR en proline 
suivie d'un codon STOP (L1008P*). Cette variation de sequence entraine done une 
modification importante de la proteine : reduction de taille de la proteine (proteine 
possedant un domaine LRR tronque) et alteration d'un acide amine tres conserve 
(Leucine). Cette modification de sequence est associee a la MC comme en temoigne 
1 0 une etude de d6sequilibre de transmission dans 16 families porteuses de la mutation 
(P=0,008). 

La mutation G909R survient sur le dernier acide amine du sixieme motif 
LRR. II remplace un acide amin£ aliphatique en acide amine basique. Cette 
variation est potentiellement importante compte tenu du caractere habituellement 

15 neutre ou polaire des acides amines en position terminale des motifs leucine riche 
(tant pour IBD1 que pour NOD1/CARD4) et du caractere conserve de cet acide 
amin6 sur les proteines IBD1 et NOD1/CARD4. 

Dans le syndrome de Blau, les malades (n=2) de la famille etudiee etaient 
porteurs d'une variation de sequence specifique (L470F), localisee dans l'exon 4 et 

20 correspondant au domaine NBD de la proteine. Dans cette serie, ce variant de 
sequence 6tait specifique du syndrome de Blau. 

Dans la RCH, plusieurs variants de sequence non retrouves chez les sujets 
sains ont aussi 6t6 identifies. La proportion de malades porteurs d'une mutation 6tait 
plus modeste que pour la MC, comme attendu compte tenu de la liaison moins 

25 fortement etablie entre 1BD1 et RCH et du caractere suppose moins genetique de 
cette derniere maladie. Des variations de sequence etaient communes a la MC et a 
la RCH (R703W, R704C). D'autres au contraires apparaissaient specifiques de la 
RCH (V794M). Cette observation permet de confirmer que MC et RCH sont des 
maladies partageant au moins en partie la meme predisposition genetique. Elle pose 

30 les bases d'une classification nosologique des MICI. 

L'etude des variants de sequence du gene IBD1 a done permis d'identifier 
plusieurs variants ayant un effet fonctionnel tres probable (ex : proteine tronquee) et 
associes a la maladie de Crohn, a la RCH et au syndrome de Blau. 
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Le promoteur du gene n'est actuellement pas determine. Selon toute 
vraisemblance cependant, celui-ci est probablement situe dans la region 5* en amont 
du gene. Selon cette hypothese, les variants de sequence observes dans cette region 
peuvent avoir un effet fonctionneL Ceci pourrait expliquer la tres forte association 
5 entre MC et certains locus polymorphes tels que ctg35 ExC ou Ctg25Exl . 

L'invention foumit ainsi la premiere description de mutations dans la 
famille des genes contenant un domaine CARD chez Fhomme. La frequence de ces 
mutations dans des maladies inflammatoires variees montre que le gene IBD1 a un 
role essentiel dans le processus inflammatoire normal et pathologique. Cette 

10 invention fournit de nouvelles voies de comprehension et de recherche dans le 
domaine de la physiopathologie des processus inflammatoires normaux et 
pathologiques. Elie permet de ce fait d'envisager le developpement de nouvelles 
molecules pharmaceutiques r^gulant les voies effectrices controlees par IBD1 et 
utiles dans le traitement des maladies inflammatoires et la regulation du processus 

1 5 inflammatoire en g£n£ral . 

Le gene IBDlprox, situ6 dans la region promotrice de IBD1, et dont la 
sequence partielle est devoilee dans la presente invention, peut lui aussi avoir un 
role important dans la regulation de 1'apoptose cellulaire et du processus 
inflammatoire, comme suggere par son expression differentielle dans les cellules 

20 matures du systeme immunitaire. La forte association rapportee dans ce travail entre 
le marqueur de polymorphisme ctg35ExC (situe dans la region transcrite du g£ne) et 
la maladie de Crohn, plaide aussi tres fortement en faveur de cette hypothese. 

Les maladies inflammatoires de l'intestin sont des maladies genetiques 
complexes pour lesquelles, a ce jour, aucun gene de susceptibility riavait &e 

25 identifie avec certitude. L'invention a permis de T identification du premier gene de 
susceptibility a la maladie de Crohn, par une demarche de clonage positionnel (ou 
genetique reverse). II s'agit la de la premiere localisation genetique obtenue par une 
telle approche pour une maladie genetique complexe, ce qui demontre son utilite et 
sa faisabilite, au moins dans certains cas dans les maladies genetiques complexes. 

30 La presente invention concerne aussi un acide nucleique purifie ou isole 

caracterise en ce qu'il code pour un polypeptide possedant un fragment continu d'au 
moins 200 acides amines d'une proline choisie parmi SEQ ID N° 2 et SEQ ID N° 
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Revendications 

1. Acide nucleique purifie ou isole, caracterise en ce qu'il comprend une 
sequence nucleique choisie dans le groupe de sequences suivantes : 
5 a) SEQ ID N° 1, SEQ ID N° 3, SEQ ID N° 4 et SEQ ID N° 6 ; 

b) la sequence d'un fragment d'au moins 1 5 nucleotides consecutifs 
d'une sequence choisie parmi SEQ ID N° 1, SEQ ID N° 3, SEQ 
ID N°4ou SEQ IDN°6; 

c) une sequence nucleique presentant un pourcentage d'identite 
10 d'au moins 80 %, apres alignement optimal avec une sequence 

definie en a) ou b) ; 

d) une sequence nucleique s'hybridant dans des conditions de forte 
stringence avec une sequence nucleique definie en a) ou b) ; 

e) la sequence complementaire ou la sequence d'ARN 
1 5 correspondant a une sequence telle que definie en a), b), c) ou d). 



2. Acide nucleique purifie ou isole selon la revendication 1, caracterise en 
ce qu'il comprend ou est constitue d'une sequence choisie parmi SEQ ID N° 1 et 
SEQ ID N° 4, la sequence complementaire ou la sequence d'ARN correspondant k 
20 une de ces sequences. 



3. Acide nucleique purifie ou isole caracterise en ce qu'il code pour un 
polypeptide possedant un fragment continu d'au moins 200 acides amines d'une 
proteine choisie parmi SEQ ID N° 2 et SEQ ID N° 5. 

25 

4. Polypeptide isole caracterise en ce qu'il comprend un polypeptide choisi 

parmi : 

a) un polypeptide correspondant a SEQ ID N° 2 ou SEQ ID N° 5 ; 

b) un polypeptide variant d'un polypeptide de sequence definie en 
30 a); 

c) un polypeptide homologue a un polypeptide defini en a) ou b), 
comportant au moins 80 % d'homologie avec ledit polypeptide 
de a); 



2806739 



44 

d) un fragment d'au moins 15 acides amines consecutifs d'un 
polypeptide defini en a), b) ou c) ; 

e) un fragment biologiquement actif d'un polypeptide defini en a), 
b) ou c). 

5 

5. Polypeptide selon la revendication 4, caracterise en ce qu'il est constitue 
d'une sequence choisie parmi SEQ ID N° 2, SEQ ID N° 5 ou une sequence 
possedant au moins 80 % d'homologie avec Tune de ces sequences apres 
alignement optimal. 

10 

6. Vecteur de clonage et/ou d'expression comprenant un acide nucleique 
selon Tune des revendications l a 3 ou codant pour un polypeptide selon Tune des 
revendications 4 et 5. 

15 7. Cellule hote caracterisee en ce qu'elle est transformee par un vecteur 

selon la revendication 6. 

8. Animal, excepte l'homme, caracterise en ce qu'il comprend une cellule 
selon la revendication 7. 

20 

9. Utilisation d'une sequence d'acide nucleique selon Tune des 
revendications 1 a 3 en tant que sonde ou amorce, pour la detection et/ou 
F amplification de sequences d* acide nucleique. 

25 10. Utilisation in vitro d'un acide nucleique selon Pune des revendications 1 

a 3 comme oligonucleotide sens ou antisens. 

11. Utilisation d'une sequence d'acide nucleique selon 1'une des 
revendications 1 a 3 pour la production d'un polypeptide recombinant. 

30 

12. Procede d'obtention d'un polypeptide recombinant caracterise en ce que 
Ton cultive une cellule selon la revendication 7 dans des conditions permettant 
Pexpression dudit polypeptide et que Ton recupere ledit polypeptide recombinant. 
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13. Polypeptide recombinant caracterise en ce qu'il est obtenu par un 
procede selon la revendication 12. 

5 14. Anticorps monoclonal ou polyclonal caracterise en ce qu'il lie 

selectivement un polypeptide selon Tune des revendications 4, 5 ou 13. 

15. Procede de detection d'un polypeptide selon Tune des revendications 4, 
5 ou 13, caracterise en ce qu'il comprend les etapes suivantes : 

0 a) mise en contact d'un echantillon biologique avec un anticorps 

selon la revendication 14 ; 
b) mise en evidence du complexe antigene-anticorps forme. 

16. Trousse de reactifs pour la mise en oeuvre d'un procede selon la 
5 revendication 15, caracterisee en ce qu'elle comprend : 

a) un anticorps monoclonal ou polyclonal selon la revendication 
14; 

b) eventuellement des reactifs pour la constitution d'un milieu 
propice a la reaction immunologique ; 

0 c) les reactifs permettant la detection du complexe antigene- 

anticorps produit lors de la reaction immunologique. 

17. Methode de diagnostic et/ou devaluation pronostique d'une maladie 
inflammatoire et/ou immune ou d'un cancer caracterisee en ce qu'on determine a 

5 partir d'un prelevement biologique d'un patient la presence d'au moins une 
mutation et/ou une alteration d'expression du gene correspondant a SEQ ID N° 1, 
SEQ ID N° 3, SEQ ID N° 4 ou SEQ ID N° 6 par Fanalyse de tout ou partie d'une 
sequence nucl&que correspondant audit gene. 

D 18. Puce a ADN caracterisee en ce qu'elle contient une sequence nucleique 

selon l'une des revendications 1 a 3. 
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19. Puce a proteines caracterisee en ce qu'elle contient un polypeptide selon 
Tune des revendications 4, 5 ou 13, ou un anticorps selon la revendication 14. 

20. Procede de detection et/ou de dosage d'un acide nucleique selon Tune 
5 des revendications 1 a 3 dans un echantillon biologique, caracterise en ce qu'il 

comprend les etapes suivantes : 

a) mise en contact d'un polynucleotide selon Tune des 
revendications 1 a 3, marque ; 

b) detection et/ou dosage de l'hybride forme entre ledit 
1 0 polynucleotide et 1'acide nucleique de 1'echantillon biologique. 

21. Procede de detection et/ou de dosage d'un acide nucleique selon Tune 
des revendications 1 a 3 dans un echantillon biologique, caracterise en ce qu'il 
comprend une etape d'amplification des acides nucleiques dudit echantillon 

15 biologique a l'aide d'amorces choisies parmi les acides nucleiques selon Tune des 
revendications 1 a 2. 

22. Procede de criblage de composes capables de se fixer a un polypeptide 
de sequence SEQ ID N° 2 ou SEQ ID N° 5, caracterise en ce qu'il comprend les 

20 etapes de mise en contact d'un polypeptide selon Tune des revendications 4, 5 ou 
13, d'une cellule selon la revendication 7, ou d'un mammifere selon la 
revendication 8, avec un compose candidat et de detection de la formation d'un 
complexe entre ledit compose candidat et ledit polypeptide. 

25 23. Procede de criblage de composes capables d'interagir in vitro ou in vivo 

avec un acide nucleique selon 1'une des revendications 1 a 3, caracterise en ce qu'il 
comprend les etapes de mise en contact d'un acide nucleique selon l'une des 
revendications 1 a 3, d'une cellule selon la revendication 7, ou d'un mammifere 
selon la revendication 8, avec un compose candidat et de detection de la formation 

30 d'un complexe entre ledit compose candidat et ledit acide nucleique 

24. Compose caracterise en ce qu'il est choisi parmi 

a) un acide nucleique selon Tune des revendications 1 a 3 ; 
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b) un polypeptide selon l'une des revendications 4, 5 ou 13 ; 

c) un vecteur selon la revendication 6 ; 

d) une cellule selon la revendication 7 ; et 

e) un anticorps selon la revendication 14 ; 
5 a titre de medicament. 

25. Compose selon la revendication 24, pour la prevention et/ou le 
traitement d'une maladie inflammatoire et/ou immune ou d'un cancer associe a la 
presence d'au moins une mutation du gene correspondant a SEQ ED N° 1 ou SEQ 
10 IDN°4. 
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LISTE DE SEQUENCES 
<110> Fondation Jean Dausset - CEPH 

<120> Genes impliques dans les maladies inf lammatoires de 
l'intestin et leur utilisation 

<130> D18702 

<160> 90 

<170> Patent In Ver. 2.1 

<210> 1 
<211> 4322 
<212> ADN 

<213> Homo sapiens 

<220> 

<221> CDS 

<222> (1) . . (3123) 

<400> 1 

atg gag aag aga agg ggt eta acc att gag tgc tgg ggc ccc caa agt 48 
Met Glu Lys Arg Arg Gly Leu Thr He Glu Cys Trp Gly Pro Gin Ser 
15 10 15 

ccc tea ctg acc ttg ttc tec tec cca ggt tgt gaa atg tgc teg cag 96 
Pro Ser Leu Thr Leu Phe Ser Ser Pro Gly Cys Glu Met Cys Ser Gin 
20 25 30 



gag get ttt cag gca cag agg age cag ctg gtc gag ctg ctg gtc tea 144 
Glu Ala Phe Gin Ala Gin Arg Ser Gin Leu Val Glu Leu Leu Val Ser 
35 40 45 

ggg tec ctg gaa ggc ttc gag agt gtc ctg gac tgg ctg ctg tec tgg 192 
Gly Ser Leu Glu Gly Phe Glu Ser Val Leu Asp Trp Leu Leu Ser Trp 
50 55 60 

gag gtc etc tec tgg gag gac tac gag ggc ttc cac etc ctg ggc cag 240 
Glu Val Leu Ser Trp Glu Asp Tyr Glu Gly Phe His Leu Leu Gly Gin 
65 70 75 80 

cct etc tec cac ttg gee agg cgc ctt ctg gac acc gtc tgg aat aag 288 
Pro Leu Ser His Leu Ala Arg Arg Leu Leu Asp Thr Val Trp Asn Lys 
85 90 95 

ggt act tgg gec tgt cag aag etc ate gcg get gec caa gaa gee cag 336 
Gly Thr Trp Ala Cys Gin Lys Leu He Ala Ala Ala Gin Glu Ala Gin 
100 105 110 

gee gac age cag tec ccc aag ctg cat ggc tgc tgg gac ccc cac teg 384 
Ala Asp Ser Gin Ser Pro Lys Leu His Gly Cys Trp Asp Pro His Ser 
115 120 125 

etc cac cca gee cga gac ctg cag agt cac egg cca gee att gtc agg 432 
Leu His Pro Ala Arg Asp Leu Gin Ser His Arg Pro Ala He Val Arg 
130 135 140 

agg etc cac age cat gtg gag aac atg ctg gac ctg gca tgg gag egg 480 
Arg Leu His Ser His Val Glu Asn Met Leu Asp Leu Ala Trp Glu Arg 
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145 150 155 160 

r?w Ph° ^ 9 tat " a tgt gat gaa atc agg ttg ccg ate ttc 

Gly Phe Val Ser Gin Tyr Glu Cys Asp Glu lie Arg Leu Pro He Phe 
165 170 175 

aca ccg tec cag agg gca aga agg ctg ctt gat ctt gee acg gtg aaa 
Thr Pro Ser Gin Arg Ala Arg Arg Leu Leu Asp Leu Ala Thr Val Lvs 
180 185 " Y 



190 



300 



528 



576 



gcg aat gga ttg get gec ttc ctt eta caa cat gtt cag gaa tta cca 
Ala Asn Gly Leu Ala Ala Phe Leu Leu Gin His Val Gin Glu Leu Pro 
195 200 205 

gtc cca ttg gec ctg cct ttg gaa get gee aca tgc aag aag tat atg 
Val Pro Leu Ala Leu Pro Leu Glu Ala Ala Thr Cys Lys Lys Tyr Sec 
210 215 220 

gec aag ctg agg ace acg gtg tct get cag tct cgc ttc etc agt acc 
Ala Lys Leu Arg Thr Thr Val Ser Ala Gin Ser Arg Phe Leu Ser ?hr 
225 230 235 240 

tat gat gga gca gag acg etc tgc ctg gag gac ata tac aca qaq aat 
Tyr Asp Gly Ala Glu Thr Leu Cys Leu Glu Asp He Tyr Thr III til 
245 250 255 

VaT S tu g f a gtg " C atg gCt gga tcc cca «« «ag 

Val Leu Glu Val Trp Ala Asp Val Gly Met Ala Gly Ser Pro Gin Lys 

260 265 270 

age cca gec acc ctg ggc ctg gag gag etc ttc age acc cct ggc cac 
Ser Pro Ala Thr Leu Gly Leu Glu Glu Leu Phe Ser Thr Pro Gxy Sis 
275 280 285 

etc aat gac gat gcg gac act gtg ctg gtg gtg ggt gag gcg qqc aqt 912 
Leu Asn Asp Asp Ala Asp Thr Val Leu Val Val Gly Glu All lly Ser 

aag age acg etc ctg 
Lys Ser Thr Leu Leu 
305 310 



624 



672 



720 



768 



816 



864 



ggc aag age acg etc ctg cag egg ctg cac ttg ctg tgg get gca gaa 960 
Gly Lys Ser Thr Leu Leu Gin Arg Leu His Leu Leu Trp La La III 
5 310 315 32 £ 

= £ £ 2 K £ £ £ £ £ III £ E £ J- s *«- 



1104 



325 330 

Le! Gin r^! f ? IT ^ ° Ca CtC tCt gtg cgg act cta etc ttt gag 1056 
Leu Gin Cys Met Ala Lys Pro Leu Ser Val Arg Thr Leu Leu Phe Glu 
340 345 350 

Hi! lit r 9t t" t Ct 9tt 9gt Caa gaa gac atc ttc <=ag tta etc 

Hrs Cys Cys Trp Pro Asp Val Gly Gin Glu Asp lie Phe Gin Leu Leu 

355 360 365 

ctt gac cac cct gac cgt gtc ctg tta acc ttt gat ggc ttt qac aaa 1 1 V 
Leu Asp His Pro Asp Arg Val Leu Leu Thr Phe Asp lly Pne Sp Glu " 
J/U 375 380 

£ £ £ £ £ B £ £ K £ = £ S £ E ^ - 

390 395 4Q P 
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ccc acc tct gtc cag acc ctg etc ttc aac ctt ctg cag ggc aac ctg 1248 
Pro Thr Ser Val Gin Thr Leu Leu Phe Asn Leu Leu Gin Gly Asn Leu 
405 410 415 

ctg aag aat gec cgc aag gtg gtg acc age cgt ccg gec get gtg teg 1296 
Leu Lys Asn Ala Arg Lys Val Val Thr Ser Arg Pro Ala Ala Val Ser 
420 425 430 

gcg ttc etc agg aag tac ate cgc acc gag ttc aac etc aag ggc ttc 1344 
Ala Phe Leu Arg Lys Tyr He Arg Thr Glu Phe Asn Leu Lys Gly Phe 
435 440 445 

tct gaa cag ggc ate gag ctg tac ctg agg aag cgt cat cat gag ccc 1392 
Ser Glu Gin Gly He Glu Leu Tyr Leu Arg Lys Arg His His Glu Pro 
450 455 460 

999 9tg gcg gac cgc etc ate cgc ctg etc caa gag acc tea gec ctg 1440 
Gly Val Ala Asp Arg Leu He Arg Leu Leu Gin Glu Thr Ser Ala Leu 
465 470 475 480 

cac ggt ttg tgc cac ctg cct gtc ttc tea tgg atg gtg tec aaa tgc 1488 
His Gly Leu Cys His Leu Pro Val Phe Ser Trp Met Val Ser Lys Cys 
485 490 495 

cac cag gaa ctg ttg ctg cag gag ggg ggg tec cca aag acc act aca 1536 
His Gin Glu Leu Leu Leu Gin Glu Gly Gly Ser Pro Lys Thr Thr Thr 
500 505 510 

gat atg tac ctg ctg att ctg cag cat ttt ctg ctg cat gee acc ccc 1584 
Asp Met Tyr Leu Leu He Leu Gin His Phe Leu Leu His Ala Thr Pro 
515 520 525 

cca gac tea get tec caa ggt ctg gga ccc agt ctt ctt egg ggc cgc 1632 
Pro Asp Ser Ala Ser Gin Gly Leu Gly Pro Ser Leu Leu Arg Gly Arg 
530 535 540 

etc ccc acc etc ctg cac ctg ggc aga ctg get ctg tgg ggc ctg ggc 1680 
Leu Pro Thr Leu Leu His Leu Gly Arg Leu Ala Leu Trp Gly Leu Gly 
545 550 555 560 

atg tgc tgc tac gtg ttc tea gec cag cag etc cag gca gca cag gtc 1728 
Met Cys Cys Tyr Val Phe Ser Ala Gin Gin Leu Gin Ala Ala Gin Val 
565 570 575 

age cct gat gac att tct ctt ggc ttc ctg gtg cgt gee aaa ggt gtc 1776 
Ser Pro Asp Asp He Ser Leu Gly Phe Leu Val Arg Ala Lys Gly Val 
580 585 ~ 590 

gtg cca ggg agt acg gcg ccc ctg gaa ttc ctt cac ate act ttc cag 1824 
Val Pro Gly Ser Thr Ala Pro Leu Glu Phe Leu His He Thr Phe Gin 
595 600 605 

tgc ttc ttt gec gcg ttc tac ctg gca etc agt get gat gtg cca cca 1872 
Cys Phe Phe Ala Ala Phe Tyr Leu Ala Leu Ser Ala Asp Val Pro Pro 
610 615 620 

get ttg etc aga cac etc ttc aat tgt ggc agg cca ggc aac tea cca 1920 
Ala Leu Leu Arg His Leu Phe Asn Cys Gly Arg Pro Gly Asn Ser Pro 
625 630 635 640 
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atg gcc agg etc ctg ccc acg atg tgc ate cag gee teg gag gga aag 1968 
Met Ala Arg Leu Leu Pro Thr Met Cys lie Gin Ala Ser Glu Gly Lys 
645 650 655 

gac age age gtg gca get ttg ctg cag aag gcc gag ccg cac aac ctt 2016 
Asp Ser Ser Val Ala Ala Leu Leu Gin Lys Ala Glu Pro His Asn Leu 
660 665 670 

cag ate aca gca gcc ttc ctg gca ggg ctg ttg tec egg gag cac tgg 2064 
Gin lie Thr Ala Ala Phe Leu Ala Gly Leu Leu Ser Arg Glu His Trp 
675 680 685 

ggc ctg ctg get gag tgc cag aca tct gag aag gcc ctg etc egg cgc 2112 
Gly Leu Leu Ala Glu Cys Gin Thr Ser Glu Lys Ala Leu Leu Arg Arg 
690 695 700 

cag gcc tgt gcc cgc tgg tgt ctg gcc cgc age etc cgc aag cac ttc 2160 
Gin Ala Cys Ala Arg Trp Cys Leu Ala Arg Ser Leu Arg Lys His Phe 
705 710 715 720 

cac tec ate ccg cca get gca ccg ggt gag gcc aag age gtg cat gcc 2208 
His Ser He Pro Pro Ala Ala Pro Gly Glu Ala Lys Ser Val His Ala 
725 730 735 

atg ccc ggg ttc ate tgg etc ate egg age ctg tac gag atg cag gag 2256 
Met Pro Gly Phe He Trp Leu He Arg Ser Leu Tyr Glu Met Gin Glu 
740 745 " 750 

gag egg ctg get egg aag get gca cgt ggc ctg aat gtt ggg cac etc 2304 
Glu Arg Leu Ala Arg Lys Ala Ala Arg Gly Leu Asn Val Gly His Leu 
755 760 765 

aag ttg aca ttt tgc agt gtg ggc ccc act gag tgt get gcc ctg gcc 2352 
Lys Leu Thr Phe Cys Ser Val Gly Pro Thr Glu Cys Ala Ala Leu Ala 
770 775 780 

ttt gtg ctg cag cac ctt egg egg ccc gtg gcc ctg cag ctg gac tac 2400 
Phe Val Leu Gin His Leu Arg Arg Pro Val Ala Leu Gin Leu Asp Tyr 
785 790 795 800 

aac tct gtg ggt gac att ggc gtg gag cag ctg ctg cct tgc ctt ggt 2448 
Asn Ser Val Gly Asp He Gly Val Glu Gin Leu Leu Pro Cys Leu Gly 
805 810 815 

gtc tgc aag get ctg tat ttg cgc gat aac aat ate tea gac cga ggc 2496 
Val Cys Lys Ala Leu Tyr Leu Arg Asp Asn Asn He Ser Asp Arg Gly 
820 825 830 

ate tgc aag etc att gaa tgt get ctt cac tgc gag caa ttg cag aag 2544 
He Cys Lys Leu He Glu Cys Ala Leu His Cys Glu Gin Leu Gin Lys 
835 840 845 

tta get eta ttc aac aac aaa ttg act gac ggc tgt gca cac tec atg 2592 
Leu Ala Leu Phe Asn Asn Lys Leu Thr Asp Gly Cys Ala His Ser Met 
850 855 860 

get aag etc ctt gca tgc agg cag aac ttc ttg gca ttg agg ctg ggg 2640 
Ala Lys Leu Leu Ala Cys Arg Gin Asn Phe Leu Ala Leu Arg Leu Gly 
865 870 875 880 



aat aac tac ate act gcc gcg gga gcc caa gtg ctg gcc gag ggg etc 



2688 
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Asn Asn Tyr He Thr Ala Ala Gly Ala Gin Val Leu Ala Glu Gly Leu 
885 890 895 

cga ggc aac acc tec ttg cag ttc ctg gga ttc tgg ggc aac aga gtg 2736 
Arg Gly Asn Thr Ser Leu Gin Phe Leu Gly Phe Trp Gly Asn Arg Val 
900 905 910 

ggt gac gag ggg gec cag gec ctg get gaa gec ttg ggt gat cac cag 2784 
Gly Asp Glu Gly Ala Gin Ala Leu Ala Glu Ala Leu Gly Asp His Gin 
915 920 925 

age ttg agg tgg etc age ctg gtg ggg aac aac att ggc agt gtg ggt 2832 
Ser Leu Arg Trp Leu Ser Leu Val Gly Asn Asn He Gly Ser Val Gly 
930 935 940 

gee caa gec ttg gca ctg atg ctg gca aag aac gtc atg eta gaa gaa 2880 
Ala Gin Ala Leu Ala Leu Met Leu Ala Lys Asn Val Met Leu Glu Glu 
945 950 955 960 

etc tgc ctg gag gag aac cat etc cag gat gaa ggt gta tgt tct etc 2928 
Leu Cys Leu Glu Glu Asn His Leu Gin Asp Glu Gly Val Cys Ser Leu 
965 970 975 

gca gaa gga ctg aag aaa aat tea agt ttg aaa ate ctg aag ttg tec 2976 
Ala Glu Gly Leu Lys Lys Asn Ser Ser Leu Lys He Leu Lys Leu Ser 
980 985 990 

aat aac tgc ate acc tac eta ggg gca gaa gec etc ctg cag gee ctt 3024 
Asn Asn Cys He Thr Tyr Leu Gly Ala Glu Ala Leu Leu Gin Ala Leu 
995 1000 1005 

gaa agg aat gac acc ate ctg gaa gtc tgg etc cga ggg aac act ttc 3072 
Glu Arg Asn Asp Thr He Leu Glu Val Trp Leu Arg Gly Asn Thr Phe 
1010 1015 1020 

tct eta gag gag gtt gac aag etc ggc tgc agg gac acc aga etc ttg 3120 
Ser Leu Glu Glu Val Asp Lys Leu Gly Cys Arg Asp Thr Arg Leu Leu 
1030 1035 1040 

ctt tgaagtctcc gggaggatgt tegtctcagt ttgtttgtga caggctgtga 3173 
Leu 



gtttgggccc 


cagaggctgg 


gtgacatgtg 


ttggcagcct 


cttcaaaatg 


agccctgtcc 


3233 


tgectaagge 


tgaacttgtt 


ttctgggaac 


accataggtc 


acctttattc 


tggcagagga 


3293 


gggagcatca 


gtgccctcca 


ggatagactt 


ttcccaagcc 


tacttttgee 


attgacttct 


3353 


tcccaagatt 


caatcccagg 


atgtacaagg 


acagcccccc 


tccatagtat 


gggactggcc 3413 


tetgetgate 


ctcccaggct 


tccgtgtggg 


tcagtggggc 


ccatggatgt 


gcttgttaac 


3473 


tgagtgcctt 


ttggtggaga 


ggcccggccc 


acataattca 


ggaagcagct 


ttccccatgt 


3533 


ctcgactcat 


ccatccaggc 


cattccccgt 


ctctggttcc 


tcccctcctc 


ctggactcct 


3593 


gcacacgctc 


cttcctctga 


ggctgaaatt 


cagaatatta 


gtgacctcag 


ctttgatatt 3653 


tcacttacag 


cacccccaac 


cctggcaccc 


agggtgggaa 


gggctacacc 


ttagcctgcc 


3713 


ctcctttccg 


gtgtttaaga 


catttttgga 


aggggacacg 


tgacagccgt 


ttgttcccca 


3773 
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agacattcta ggtttgcaag aaaaatatga ccacactcca gctgggatca catgtggact 3833 
tttatttcca gtgaaatcag ttactcttca gttaagcctt tggaaacagc tcgactttaa 3893 
aaagctccaa atgcagcttt aaaaaattaa tctgggccag aatttcaaac ggcctcacta 3953 
ggcttctggt tgatgcctgt gaactgaact ctgacaacag acttctgaaa tagacccaca 4 013 
agaggcagtt ccatttcatt tgtgccagaa tgctttagga tgtacagtta tggattgaaa 4073 
gtttacagga aaaaaaatta ggccgttcct tcaaagcaaa tgtcttcctg gattattcaa 4133 
aatgatgtat gttgaagcct ttgtaaattg tcagatgctg tgcaaatgtt attattttaa 4193 
acattatgat gtgtgaaaac tggttaatat ttataggtca ctttgtttta ctgtcttaag 4253 
tttatactct tatagacaac atggccgtga actttatgct gtaaataatc agaggggaat 4313 
aaactgttg 4322 

<210> 2 
<211> 1041 
<212> PRT 

<213> Homo sapiens 
<400> 2 

Met Glu Lys Arg Arg Gly Leu Thr lie Glu Cys Trp Gly Pro Gin Ser 
15 10 15 

Pro Ser Leu Thr Leu Phe Ser Ser Pro Gly Cys Glu Met Cys Ser Gin 
20 25 30 

Glu Ala Phe Gin Ala Gin Arg Ser Gin Leu Val Glu Leu Leu Val Ser 
35 40 45 

Gly Ser Leu Glu Gly Phe Glu Ser Val Leu Asp Trp Leu Leu Ser Tro 
50 55 60 

Glu Val Leu Ser Trp Glu Asp Tyr Glu Gly Phe His Leu Leu Gly Gin 
65 70 75 80 

Pro Leu Ser His Leu Ala Arg Arg Leu Leu Asp Thr Val Trp Asn Lvs 
85 90 95 

Gly Thr Trp Ala Cys Gin Lys Leu He Ala Ala Ala Gin Glu Ala Gin 
100 105' 110 

Ala Asp Ser Gin Ser Pro Lys Leu His Gly Cys Trp Asp Pro His Ser 
115 120 125 

Leu His Pro Ala Arg Asp Leu Gin Ser His Arg Pro Ala He Val Ara 
130 135 140 y 

Arg Leu His Ser His Val Glu Asn Met Leu Asp Leu Ala Trp Glu Arg 
145 150 155 i 6 o 

Gly Phe Val Ser Gin Tyr Glu Cys Asp Glu He Arg Leu Pro He Phe 
165 170 175 
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Thr Pro Ser Gin Arg Ala Arg Arg Leu Leu Asp Leu Ala Thr Val Lys 
180 185 190 

Ala Asn Gly Leu Ala Ala Phe Leu Leu Gin His Val Gin Glu Leu Pro 
195 200 205 

Val Pro Leu Ala Leu Pro Leu Glu Ala Ala Thr Cys Lys Lys Tyr Met 
210 215 220 

Ala Lys Leu Arg Thr Thr Val Ser Ala Gin Ser Arg Phe Leu Ser Thr 
225 230 235 240 

Tyr Asp Gly Ala Glu Thr Leu Cys Leu Glu Asp lie Tyr Thr Glu Asn 
245 250 255 

Val Leu Glu Val Trp Ala Asp Val Gly Met Ala Gly Ser Pro Gin Lys 
260 265 270 

Ser Pro Ala Thr Leu Gly Leu Glu Glu Leu Phe Ser Thr Pro Gly His 
275 280 285 

Leu Asn Asp Asp Ala Asp Thr Val Leu Val Val Gly Glu Ala Gly Ser 
290 295 300 

Gly Lys Ser Thr Leu Leu Gin Arg Leu His Leu Leu Trp Ala Ala Gly 
305 310 315 320 

Gin Asp Phe Gin Glu Phe Leu Phe Val Phe Pro Phe Ser Cys Arg Gin 
325 330 335 

Leu Gin Cys Met Ala Lys Pro Leu Ser Val Arg Thr Leu Leu Phe Glu 
340 345 " 350 

His Cys Cys Trp Pro Asp Val Gly Gin Glu Asp lie Phe Gin Leu Leu 
355 360 365 

Leu Asp His Pro Asp Arg Val Leu Leu Thr Phe Asp Gly Phe Asp Glu 
370 375 380 

Phe Lys Phe Arg Phe Thr Asp Arg Glu Arg His Cys Ser Pro Thr Asp 
385 390 395 400 

Pro Thr Ser Val Gin Thr Leu Leu Phe Asn Leu Leu Gin Gly Asn Leu 
405 410 415 

Leu Lys Asn Ala Arg Lys Val Val Thr Ser Arg Pro Ala Ala Val Ser 
420 425 430 

Ala Phe Leu Arg Lys Tyr He Arg Thr Glu Phe Asn Leu Lys Gly Phe 
435 440 445 

Ser Glu Gin Gly He Glu Leu Tyr Leu Arg Lys Arg His His Glu Pro 
450 455 460 



Gly Val Ala Asp Arg Leu He Arg Leu Leu Gin Glu Thr Ser Ala Leu 
465 470 475 480 

His Gly Leu Cys His Leu Pro. Val Phe Ser Trp Met Val Ser Lys Cys 
485 490 495 

His Gin Glu Leu Leu Leu Gin Glu Gly Gly Ser Pro Lys Thr Thr Thr 
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500 



505 



510 



Asp Met Tyr Leu Leu lie Leu Gin His Phe Leu Leu His Ala Thr Pro 
515 520 525 

Pro Asp Ser Ala Ser Gin Gly Leu Gly Pro Ser Leu Leu Arg Gly Arg 
530 535 540 

Leu Pro Thr Leu Leu His Leu Gly Arg Leu Ala Leu Trp Gly Leu Gly 
545 550 555 * 560 

Met Cys Cys Tyr Val Phe Ser Ala Gin Gin Leu Gin Ala Ala Gin Val 
565 570 575 

Ser Pro Asp Asp lie Ser Leu Gly Phe Leu Val Arg Ala Lys Gly Val 
580 585 " 590 

Val Pro Gly Ser Thr Ala Pro Leu Glu Phe Leu His He Thr Phe Gin 
595 600 605 

Cys Phe Phe Ala Ala Phe Tyr Leu Ala Leu Ser Ala Asp Val Pro Pro 
610 615 620 

Ala Leu Leu Arg His Leu Phe Asn Cys Gly Arg Pro Gly Asn Ser Pro 
62 5 630 635 640 

Met Ala Arg Leu Leu Pro Thr Met Cys He Gin Ala Ser Glu Gly Lys 
645 650 655 

Asp Ser Ser Val Ala Ala Leu Leu Gin Lys Ala Glu Pro His Asn Leu 
660 665 670 

Gin He Thr Ala Ala Phe Leu Ala Gly Leu Leu Ser Arg Glu His Trp 
675 680 685 

Gly Leu Leu Ala Glu Cys Gin Thr Ser Glu Lys Ala Leu Leu Arg Arg 
690 695 700 

Gin Ala Cys Ala Arg Trp Cys Leu Ala Arg Ser Leu Arg Lys His Phe 
705 710 715 720 

His Ser He Pro Pro Ala Ala Pro Gly Glu Ala Lys Ser Val His Ala 
725 730 735 

Met Pro Gly Phe He Trp Leu He Arg Ser Leu Tyr Glu Met Gin Glu 
740 745 750 

Glu Arg Leu Ala Arg Lys Ala Ala Arg Gly Leu Asn Val Gly His Leu 
755 760 765 



Lys Leu Thr Phe Cys Ser Val Gly Pro Thr Glu Cys Ala Ala Leu Ala 
770 775 780 

Phe Val Leu Gin His Leu Arg Arg Pro Val Ala Leu Gin Leu Asp Tyr 
785 790 795 800 

Asn Ser Val Gly Asp He Gly Val Glu Gin Leu Leu Pro Cys Leu Gly 
805 810 815 

Val Cys Lys Ala Leu Tyr Leu Arg Asp Asn Asn He Ser Asp Arq Glv 
820 825 830 
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lie Cys Lys Leu lie Glu Cys Ala Leu His Cys Glu Gin Leu Gin Lys 
835 840 845 

Leu Ala Leu Phe Asn Asn Lys Leu Thr Asp Gly Cys Ala His Ser Met 
850 855 860 

Ala Lys Leu Leu Ala Cys Arg Gin Asn Phe Leu Ala Leu Arg Leu Gly 
865 870 875 880 

Asn Asn Tyr He Thr Ala Ala Gly Ala Gin Val Leu Ala Glu Gly Leu 
885 890 895 

Arg Gly Asn Thr Ser Leu Gin Phe Leu Gly Phe Trp Gly Asn Arg Val 
900 905 910 

Gly Asp Glu Gly Ala Gin Ala Leu Ala Glu Ala Leu Gly Asp His Gin 
915 920 925 

Ser Leu Arg Trp Leu Ser Leu Val Gly Asn Asn He Gly Ser Val Gly 
930 935 940 

Ala Gin Ala Leu Ala Leu Met Leu Ala Lys Asn Val Met Leu Glu Glu 
945 950 955 960 

Leu Cys Leu Glu Glu Asn His Leu Gin Asp Glu Gly Val Cys Ser Leu 
965 970 U 975 

Ala Glu Gly Leu Lys Lys Asn Ser Ser Leu Lys He Leu Lys Leu Ser 
980 985 * 990 

Asn Asn Cys He Thr Tyr Leu Gly Ala Glu Ala Leu Leu Gin Ala Leu 
995 1000 1005 

Glu Arg Asn Asp Thr He Leu Glu Val Trp Leu Arg Gly Asn Thr Phe 
1010 1015 1020 

Ser Leu Glu Glu Val Asp Lys Leu Gly Cys Arg Asp Thr Arg Leu Leu 
025 1030 1035 1040 

Leu 



<210> 3 

<211> 37443 

<212> ADN 

<213> Homo sapiens 

<220> 

<221> exon 

<222> (63) . . (106) 

<220> 

<221> exon 

<222> (3908) . . (4406) 

<220> 

<221> exon 

<222> (12307) . . (12412) 
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<220> 

<221> exon 

<222> (15010) . . (16825) 
<220> 

<221> exon 

<222> (21017) . . (21100) 
<220> 

<221> exon 

<222> (21321) . . (21404) 



<220> 

<221> exon 

<222> (24355) . . (24438) 



<220> 

<221> exon 

<222> (27052) (27135) 
<220> 

<221> exon 

<222> (27730) . . (27813) 
<220> 

<221> exon 

<222> (29917) . . (30000) 
<220> 

<221> exon 

<222> (34244) . . (34327) 
<220> 

<221> exon 

<222> (36123) . . (37443) 



<400> 3 

tcaccatata actggtattt aaagccacaa 
atatggagaa gagaaggggt ctaaccattg 
ccaagaagac agaaagagtg aaaatcagag 
atgccccaaa gaggaaggag ggaacaaata 
tgagggctga ggattgagca atgggaggtc 
ggaactagag ggaatgggag gggatgggag 
aagggggcct gctgtaaagg gagcagataa 
tgtcaagaga gtagctttact tttacaatgg 
ggatttgatc tcttagggag agaacagtgt 
agggtggggg gcttggcccc agcagagact 
gcttcccctc ctctcctgtc tgcaaggggt 
agcatttgct cttggcccca gagaaaccgg 
gtccaggctc aggcctgggc ctgggtttca 
ctctctttca gcaaggaagt gatcctttct 
ggtgtctttg aagttgtagt aactgaagta 
agatttcgcc tgaagagggg aagcccgacc 
aaggacaatt ttaggaaaca gataatgagt 
aactgaagca ggagaaactg aagctagaca 
cctgagctgg ttagtgagaa cagcactaag 
gagacaggac aatgcctgct cagagacagg 
ctgctctgag gtttctggaa gaaggccagg 
gacagagctc cgagtcacgt ggcttgggcg 
caacgtcact agctggggtg tgtatggctc 



gagcaggtgg gctcatctag ggatggagtg 60 
agtgctgggg cccccagtgt taggaaccag 120 
agttggggtg tcctggagga aatgaagaaa 180 
tgaccaatgc ccctggcaga gcaagcaggc 240 
actggtgaca gtttcactgg agctggatgg 300 
gacttgggga cagcagtaca ggcaacagac 360 
atgggattgg agccaaatga agaaggggag 420 
agaattagag tgcattgtgc actggtgggg 480 
tagggaggga gaatgcagga tagctggggg 540 
caggacactt gggaagttga gcttccctgg 600 
cagtgggctg agatttcagc acttaagcaa 660 
gctggctgtg gtctcaggaa ggaaggaggt 720 
gggagggccc acgtgggtca ccccttgacc 780 
ctacatgggc ctcaccttgg ggaggacaat 84 0 
gagatcaaaa ggcaatgcag atagactgac 900 
aggtaataaa ggagtaagag gaaggatgtt 960 
gaatattttt tctctctctt tcccaattta 1020 
taatgattaa cttcccaagc tggtgagctt 1080 
gccaggttct cctccccaga tgtttaagat 1140 
gcctggctga attggccctc aggattctct 1200 
gcagaggtgt ggtgatgtag ctgctgggag 1260 
ggcctcccct tcctggtgtc cacagaagcc 1320 
acacgtaggc caggctgccc taggcttggt 1380 
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gtgcaaggga ggggccccta cttacttgtg gcctgtcccc tcgtgaatgt gtctcatgtc 1440 
cccagtgggg tttttcagtg agggtcatgg tctccaggat gcacaaggct ttgtgccaga 1500 
attgcttgga attgcctagt tctggaaggc tggttggcca actctggcct ccggcttttc 1560 
ctttgggaat ttcccttgaa ggtggggttg gtagacagat ccaggctcac cagtcctgtg 1620 
ccactgggct tttggcattc tgcacaaggc ctacccgcag atgccatgcc tgctccccca 1680 
gcctaatggg ctttgatggg ggaagagggt ggttcagcct ctcacgatga ggaggaaaga 1740 
gcaagtgtcc tcctcggaca ttctccgggt aagaggagca ggcattgtcc cgtcccagct 1800 
tgatcctcag ccttctttca tccttggccg cgacatgctc ccaggcctgg ggtcagatgg 18 60 
ggagtgctga ctctgtttct gggctgtttt ctggggagaa tgggtcggcg ggtttttttc 1920 
cccaggacct gggcagggtc aatggtgggg gccgctgtcg catccttggc tggtgtttcc 1980 
acagctgaga accactccag ggccaagccc agagcttatt ctaccctttt ttgtcctctc 2040 
ttcccctgtc ctcggccacc ccaccctctt ggctcctctg cttagatgtg ggcacaagga 2100 
ggagaactcc ttggcctgag agaactacct tagatcctgg cttccagtgg cctctgcagg 2160 
ggggtacacc ctctctccca agcagccaga cacacaagta acctcattgc ctcagtttcc 2220 
ccatctgacc agcacagggc cccctgtgcc ccagcagcgt tctgagagat tggagctttc 2280 
tccttttgct taccttggct accgtatgag gacggataca gagtgttccc cccaccccca 2340 
gcccagggga tatttgattc atgaacattc cctcagtgtc tttgtggggg acaatgctgt 2400 
gccaggctca gggatgccag gacgagtaag acccaggctc ccacgtggcc caggcaggga 2460 
gagagacaca taaacaacca tcaggaaaga ggtaaaatcc ccaggccact tggcatctgc 2520 
tcccttgagt gtctgggaat gtccctgatt tataaaaaga agctgacggc cctctttgtt 2580 
gtccatgcct acaccctttc actttcgttt cttcggggca ctgcagcagc ccttgtccac 2640 
agaccccatg acaatcgcag aactgaccat gctgagagat tttcttggct gctcagggac 2700 
cctgccaggg cttgaagctc ctggagggtc acttgccctc aaattcccag aacgcacagc 2760 
aggtcactga tgatagcagt ggcagcagtc tgtgcacggt ggtttcgagg gcgtgggagg 2820 
gaggtgaggg ccctagggca agtgtgtgtg ggaagtgttg atgggggaca aggcaccaga 2880 
acgctcggaa acaacttagt ttgcaccgta atttttcact tcgcctagga caggaccttt 2940 
agagcaatat tctgagtcta ccccttggag tagcagtgtg caaaacacac agcacgggct 3000 
tggggccccc gtggggaacc caaatgtaag agttagagac atgcattccg gagtcataca 3060 
tggctcgtgt tgaaatcctg actctgcctg tctagctgtg acacatcgta caaatcactt 3120 
agcttcttgg tgcctcagtg tcttcctctg tagaatgggt agatcatagg cactacttca 3180 
gagtggctgg gagggttcag tgaattcctg caggagagca cttagaatgg cacttggtgt 3240 
gtagtttatg cttaattaat attagccgtt actgaaactg ctgtagcctg aatccagcca 3300 
gcatgaaaga gcccctctca ccctgcttcg aagagaatga attccctgat tgtttggaag 3360 
atctctctct ctctctctgt cttttttttt tttttttgag aaacggtctt gctctcttgc 3420 
ccaggctgga gcgcaatggt gccatcttgg ctcactgcaa cctctgcctc ccgggttcaa 3480 
gtgattctcc tgtctcagcc tcctgagtag ctgggattac aggcgctcgc caccacgcct 3540 
ggctaatttt tgtattttta gtagagacag cgtttcaccg tgttggccgg gctggtctag 3600 
cgctcctgat ctcaagtgac cttgggagat ctcttgctcc taatattacc tcaagccttt 3660 
ttaaacgttt taagccggag accaagcatg gatatgggag ttaggggtct tgatttaatt 3720 
cttggttgct tcaaactctg tggaaccttg aggtgtttct tgccttctct gggtctcaat 3780 
tttcacatct atatggtggg gagcttggat tgggtaatgt ctgaggctag aaccatggcc 3840 
aactcgggtt ctgctggggc tgacttgccc tggccttccc tgaccaccct gcatctggct 3900 
tctggagaag tccctcactg accttgttct cctccccagg ttgtgaaatg tgctcgcagg 3960 
aggcttttca ggcacagagg agccagctgg tcgagctgct ggtctcaggg tccctggaag 4020 
gcttcgagag tgtcctggac tggctgctgt cctgggaggt cctctcctgg gaggactacg 4080 
agggcttcca cctcctgggc cagcctctct cccacttggc caggcgcctt ctggacaccg 4140 
tctggaataa gggtacttgg gcctgtcaga agctcatcgc ggctgcccaa gaagcccagg 4200 
ccgacagcca gtcccccaag ctgcatggct gctgggaccc ccactcgctc cacccagccc 4260 
gagacctgca gagtcaccgg ccagccattg tcaggaggct ccacagccat gtggagaaca 4320 
tgctggacct ggcatgggag cggggtttcg tcagccagta tgaatgtgat gaaatcaggt 4380 
tgccgatctt cacaccgtcc cagagggtga ggcactcctg gtgtgcatca cagagttctc 4440 
aggaaagggg tgcttagtca ccaagactga tttgtcctca tgaagtcagc ctgtggggta 4500 
acttggtccg tgggatttcc cctaaaaagg tagccaggca ggtaaaattt gctcttgact 4560 
cttggcagga aacatacaac tctttctttc ttcttttctt ttctttttct cactctgtta 4 620 
ccctggctag aatgcagtgg cacaatcata gctcactgta gccttgaatt cctgcgctca 4680 
agtgatcttc tggccttaga gtagctggga ctacggctgc tgtaccacca tgaacagcta 4740 
attttttttt tttcttttag agatggggtg ttgctatgtt gcccaggctg gtctccagct 4800 
cctggcttta agcaatcctc ccgccttggc ctcccaaact gttgggattg caggcatgag 4860 
ccactttgcc tggccaacag aacacttctg ccgagaggaa gtgtgtggtg gccaggaact 4920 
cagattctgg agccagaatg gtgcaggctc aaggtcaacc ctgtgtgatc tcaggcttcc 4980 
ctatggagcc tctccagcct cagtctccct tgtttcagtt tcctcatcta caaaacaatg 5040 



12 



2806739 



ttaatagtca aatggtgcct 
agtaatgctt aggatagtgt 
gatactctgt acttgtacac 
ataacactgc agtatattga 
agcttaaatg tttatgtagg 
gttggtatat aacagcccct 
atgaccactg agtatttttg 
cctgagaggc agatggaaca 
aaggaaagta gtttgaataa 
ggccagcact ggtcattgac 
ggtgcttcat acatatttgc 
tactccataa acatttgttg 
tgacactgca gtgttaaaat 
ttttccaaaa atgtatgtgt 
acataaataa atttgtcttc 
agagcagaag tggtgcagtc 
tggactgacc ttagtttctc 
gttacaagat tgtgtcttgt 
ctgaggggtt tggagaaggt 
agaggaagta catggattgg 
atcatgatgg aaatcagaaa 
aatctattgg atgcagctaa 
attaggaaag aaggaaggca 
gtctcactgt gtcacccagg 
tcgaacttct gggctgaagt 
ctagcaccac cataccaggc 
gtctcaaact cctgggctca 
caggca.tgag ccactgcgcc 
agaaagggct aaatagacag 
agcagggatg ggagacaaca 
ctgaggttta agcctttaga 
gtgactctga tttggtggcc 
gtggtatatc caaccaacat 
ttgtcattga ttgcaggtta 
aagaactaaa ttccaaaaat 
ccagacactg tacccagtcc 
tgtgactaca ctgtttctta 
cccagctaga atttgaatcc 
tcataaaatg tgggggcttt 
aaacctgagg ctggtaacac 
taaagttgat agggctgagg 
attaacttaa acatttttta 
ttcatatgta tagtgtaaac 
acctggggcc ttctttaadt 
atcatctctt tgcctttctt 
tattgttcta ttttgaaaaa 
cttaaattag gctgggtgca 
gcaggtggat cacaaggtca 
ctctactaaa aatacaaaaa 
ctcgggaggc tgaggcagga 
agatcgcact gcttgaaccc 
actctagcct gggtcacaga 
gttactattg ccttttctta 
agggacttgg tctggctttt 
gtcggcaatg ccatgaatga 
gtaggactga tgtgaattag 
ctttgtacag tcagtggtaa 
gctaaacact cctgtggagt 
gaagaaacga tattagttca 
gcttgcctgg acatctagga 
ccattttgtt tgaactggtg 



atcctataag gctcttggga 
ctattaccac tggctgctat 
ttttatttct gtctgtttta 
atttatttta taattaacat 
atttctgaca tgaaattgca 
gagaatgtag taactcagca 
aaactctttt gttttcttcc 
atcattaaca ttccacttta 
gctcacagta gttaatgagg 
ttattcatcc atcattcatt 
ttaaagtttg ttgtgttcat 
atgaaataag tgagttactg 
gggctgggtt ggggaacatt 
tgttcacatg agtctggata 
aaggctgcac taaagctggc 
ctctctgatt agttgcacgt 
ttataatttg ttaggggaat 
catctttaaa agttcagcaa 
agcctagatc cctagggccc 
tgaagaaaag aaatgggata 
atattcagaa ccatacaata 
agcaggacat agggggaaat 
tttgtttatt tatttgttta 
ctgctggagt gcagtagcac 
gatcctcccg cctcagcctt 
taattttttt tttgtagaca 
agtaatcctc ctccctcggc 
catctaaggc tgaattttaa 
caaaagcaaa cattgaaggt 
gatctgagga gagcaggaga 
atccagctct ctctgagctc 
ttcccttagt ggccttactg 
gtcttcccaa atggcctttt 
gggacagaaa atgctgtgga 
acccattgct actattgact 
attccctgta ttgttttatt 
acaatgaaga aactgcccaa 
aggcctgttt tcctccagag 
gtgtggtaaa cttgctcagt 
cagctgtaat accagctgtc 
tgtcagactg agctctgaat 
aattgggaaa tgcaccatgc 
tgttcccatc acccaggtta 
gcaactgcta gaggtaaaca 
taatgtttta gcatctttta 
ctgagtagca agccaaaaat 
gtggctcaag cctttaatcc 
ggagatcgag accatcctgg 
attagccaag aatagtggca 
gaatcgcttg aacccgggag 
gggaggcaga ggttgcagtg 
gcaagactct gtctcaaaaa 
gatgaaggtt cccaaggcag 
ccttccctgg gaatttataa 
gtctggggaa atattgggct 
gtgctgtgtc cggaggaaaa 
agttgccaaa ggctattata 
gaaatgaatg tcctcagctg 
tggtgaagac aagtcaaata 
gataactgcc ctcaacttgt 
gccatctact tatagtatac 



ggattcagtg agttaatttg 5100 
ttattatttc tgttatgagt 5160 
aattaacagc acaacagacc 5220 
agcatattat aaactaatat 5280 
ttagatcata gatgttcaga 5340 
gagaccagaa ggtcagagaa 5400 
aaatagtgat tcttagggct 5460 
taaatcggga agttgagacc 5520 
gggccagtgc tggaccaatt 5580 
tattcagcca gaatctatta 5640 
agagctttgc acacggtagg 5700 
aatgaatgat tgaattagaa 5760 
ttagtttttg tttttgtctg 5820 
accctagatt gagattgatg 5880 
tcacatggct aggtatttac 5940 
acagaagaca tattcgttat 6000 
tgaatcagcc catctgagaa 6060 
tgtgatgtgg tacagatggt 6120 
agagaagaca ggatgtgaac 6180 
actcatgggt caaagaagaa 6240 
atgagaatat tatttatcaa 6300 
ttacaacctt aggtgcctag 6360 
tttatttatt tgagatgggg 6420 
gatcataaat cactgaagtc 6480 
ccaagtaggt gggacacagg 6540 
cagggtcttg ctatgttgag 6600 
ttcccaaagt gctgggatta 6660 
tgagctaaga attcatctta 6720 
tgggactgag ctgagtgggt 6780 
ttttgaaagg attgcactgc 6840 
cctttgagct ctgacattct 6900 
atttcatttg gatggtgctt 6960 
aatttcctat aaagaagtag 7020 
atgaaacaaa atgcaagtta 7080 
gagtgaattc ctactgtgtg 7140 
taagcctcac aagggtatag 7200 
atcgcccatc tgggaagcgg 7260 
cttgtgctat tctctgtctg 7320 
tgggcatagc agttgttagg 7380 
cgtctgactc atgcaactgt 7440 
tgcctgattc ctataacaat 7500 
atacagaaga gtgtgtatat 7560 
aaaaacagga tgttgccagt 7620 
ctggcttgac ttttgtgtaa 7680 
aaataaatcc ccaaataatg 7740 
agctgtgtaa agaaaggtca 7800 
cagtactttg ggaggctgag 7860 
ccaacatgga gaaaccccgt 7920 
tgtgcctgta gtcccagcta 7980 
gcagatgttg cagtgagctg 8040 
agccaagatc gcaccactgc 8100 
aaaaaaaaaa aaaaagaaag 8160 
ggaaagctaa gtggagtctc 8220 
ggacctcttc tgggaagtca 8280 
cattgcaact ggagggtctg 8340 
tggccagagg aagtgggctg 8400 
gctcacagga atgggccaag 8460 
actgaggcag cgggagttga 8520 
tagataaagg ttagggtcag 8580 
ttgaatcttg agtcactgct 8640 
agccatcaac ctgagatttc 8700 
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cctacatggt cttcctgcct tggtctcctg tatcctgaat cctatggcct cttcttccct 8760 
ggtttactac attttgctag accgtatcct ccagtcaatt ccttagaatg aatgtatgaa 8820 
agttaaaatt tctgaggtct cacatgtctt aaagttccct catactggat tgatagtttg 8880 
gctgggtata aaattctggg ctggccatca ttttccttca gaattttgat tgcattattc 8940 
cattatcctc tcttttcaat attgcttcta agaattccaa aacctttttt tttttttctt 9000 
tttgagacag tgtctcactc tgtcacccag gctggaatgc agtagtgtga tctcagctca 9060 
ctgcaacctc cacctcctgg gtttaagcga ttcttcttcc tcagcctcct gagcagctgg 9120 
gattacaggc acccaccacc acacccttta gtagagatgg ggttttgcta tgttggccag 9180 
gctggtcttg aacttctgac tttaggtgat ctgcctactt cggcctccca aagtgctggg 9240 
attaaaggcg tgagccacca cacccagcct ccaaaaccat tttaaaactc tttctggaag 9300 
cttttaaaat tttcttttag tccccagaat tttaaaattt caattatgtg ccttggtgtt 9360 
cttccattat attagtcacc caagaggtac tttcaatctg gaaacttctc tatgttttgg 9420 
gaaatgttct tgattagttt acaggtgatt tcttcctctc cattttatct cttctctttt 9480 
catgaaacta ctattaattc aatgttagaa ttccttgact gatcatttaa ttttcttcta 9540 
ttttccatct ctgtgtcttt ttgctctact tttctatgat agtcacagct ctatctttaa 9600 
actcttgagt ttttcatttt tgatgtcatg attttaattt gcaagaggta ggtttgactg 9660 
attctttttt gtagtatctt actcttgttt tatggatgca acatcttctt tgacttaagg 9720 
atcataagat aggtgggttc tttgtttgtt tgtttgactg tttttcaccc tatgtaaact 9780 
ttttctacaa gtttctttcc ccttcccccc tttttggctt ctatctccca cattagatgc 9840 
tttctctggg ctcatgatac tctttggttt tctttctcaa gattgacagg taggacttta 9900 
aaacttgttg agcatgcggg tgaaacttgt ctaccatgaa tttcactgta gatattttgg 9960 
agattgacag tgtttatatc tttagatctc acctcctggg ttgatcaagt tatctgagta 10020 
caccacagac cttttgcctg gggataaacc agaaatctgt ttcagaaacc actttgattc 10080 
agtcttcctt gttttagtca tttccttcag ttccggaggt ccgtcatgct gatcattcca 10140 
gagcccttta cagatcctag ggtacacact gcatggtttt caactttctt gttttggggt 10200 
taagatttgg ctttcaggag tctcctcagt ccgttactat tcattcaatc agcaagtcct 10260 
tgagcacctg atttgtgcca gacattcttc taggtgttag ggatacctca gtgaacaaaa 10320 
cagacaaaaa tctttgtctt ggaaatacac acactccagt caggggagag ggacaataag 10380 
ccaaaggaag gaaattacag cgtgtgctag aaggtgataa gtgctgtaga aagtaagtaa 10440 
agtgggtttg ggagttgaga gtttgggaag gggataaatg atggcaattg taaatagagt 10500 
agtcagagtt ctcacttaga aggtgaaatt caagtaaaga cttgaaggag gacagggaat 10560 
tagccacatg gatggctagg ggaaggcttc caagctgaga ggacagccag agccaaggcc 10620 
cagaggcagg agcatacctg gtagttttag gaaacaggag gccaggatgc tgagtggagt 10680 
aagagggggc atgaaaggag aaacttgggt ccacgtggtt ctagacaggt atttttgtct 10740 
gttttgggcc ctgaaggtta ctattggact tggactctta ctctgaggaa atagggacgc 10800 
tattgggacg tttgtacagg agcaatgtga cctgagtttt gtttgtaaag gattagactc 10860 
tggctgtggc attaaggcta ggctgtgggg gcaggaacag aagcaggggg accagttttg 10920 
cagcctgtgc agctttccag ataagcaggg attgtggctt ggaggaggat ggtatagagg 10980 
aggtgacaag aaatgactct atgtctggta tgtagatatt ggccacagat ggcatttgag 11040 
cactagagac ctggctggtc cacatggagt ttccataagc acataataca catcagattt 11100 
caaagactta atatgaaaaa aaaaatttaa cgggccccgg gaattttttt cttttttttt 11160 
ttttttgaga cccagtcttg ctctgtcacc caggctggag tgcagtggtg tgatctcggc 11220 
tcactgcaac ctccgcctcc caggttcaag tgattctcct gcctcagcct cctgagtacc 11280 
tgggactaca ggcacctgcc accacgcctg gctaattttt tgtattttta gtagtgatgg 1134 0 
ggtttcacca tgttgtccag gctggtctgg aactccggac cttaggggat ctacccgcct 11400 
tggcctccca aattgctggg attacaggca tgagccacca tgctcagcca tatcttgcta 11460 
ttttctacat ggattacatg ttgaaatggt aatgttttgg ctattgtgga ttaaatagaa 11520 
tatatgatta aagttgattt catctatttc ttttaacttt aaaaaatatg tctgttagag 11580 
gatttgaaat tccacatgcg gcttgcattt gtgacctgca tttcatttct gtggaacagt 11640 
gccctttttg ggacatgctt tgaaggtgga gtcaacagga tttggcagat tacagacgag 11700 
aggcttcaag ggtgactcca agacttcggg gcagagcacc tggaagaaag gggttaatat 11760 
tagccaagat gaggaaggct gtcggtttgg caggtgcatg ggcaggttag gagtttagtt 11820 
ttgaatatgt tggaggtgtt tatgaaactt ttaagtggag atggaaaata ggcagttgga 11880 
tgtgcaagtc cagggttcag ggagacagtt caggctggag atgaagatgt gggagtctga 11940 
ggagagattg tattcaaata ttcaatccat gagacttgat gaaatcactt ctcttccaaa 12000 
tgatttacag cctgcagaat cattttccct atctttgtag gtttatgtct tcattttgtt 12060 
tcatttattt ttcagttatt cactgtttta gtgagttttg agtaggagcc agattggatg 12120 
catgcgttca attcaccatc caacactgta ttaactactt gaaactcatg tggttgttcg 12180 
gttgtttttt tgacctttta ttctggatgg aagagagatg cttatgaagt tgcagtaatc 12240 
agtaagcctt cccacattgc tccatcagcc ttcctggaag aataatgtct tctgcctttc 12300 
ctgtaggcaa gaaggctgct tgatcttgcc acggtgaaag cgaatggatt ggctgccttc 12360 
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cttctacaac atgttcagga attaccagtc ccattggccc tgcctttgga aggtaggtgt 12420 
atgttctcag ttaatcagaa agggaagggc agtcagtgca gatccatggt taagagcaga 12480 
acacacctcg gttaacatcc catatgctgg cagtatagcc tccctatgac tcaatttcct 12540 
tgttttaagg ctagcaccac cccgtctcat tgggattttg ggagcattaa aaggacaaaa 12600 
gcgtgtaatg ttagctatta gctttcatta tctcccacac agtatactga caattgggct 12660 
accatatatt gagggctaac taaaggtgtt acttaccatc caaactctca ttatctgtac 12720 
cgaaaagata tggacacatg ttttgagtta gggctggtat ctcttgatct ctgaaattta 12780 
gcagctcaca atgggaaact caagaaccaa gtggatctag agactctggt atccctcagt 12840 
gcccagggtc accacccaaa ctcaggaaca ggaggggctt ggaccgcacc acttgaacat 12900 
accaggcatc ctgccaggtg ctttatggac aatgtctacc ctttgcaaca accctgagaa 12960 
gtaggtggtg tttttttcca ccttatagat gtggaaactg ggcagggagg ttaagtgacg 13020 
agggagggga agatgggtct gattgtaaat tgtccccacc tacactttct cttttcttgg 13080 
gagaagaaat gtcagttgta aagagagagt gcaagcctgg cactctttag ggcttgttcc 13140 
tacaccactg tagggaaagc tcattggcac tgaagccccc tgagctgtgt gtggtgctgg 13200 
cagatgggtc tatcaccctg gactgtgtcc tctgggcagc aagcaagcct gtgggcgggg 13260 
tggctggaag tctgtgcctg gcactcgcga gtgcaccgtc tcattgaaga acaggatcta 13320 
aacatcagtg cgccacagca gggtgcgcgg cacggagtgc aggccctggt ttggcccttg 13380 
gttgaggttt gctgttgaca tcatcaagca cagctagtca ctgtaagacc aggccagggt 13440 
gcaagattcc ccacacttct aaaggtgaca attggtgtat ttatttctct ataaaatgac 13500 
attttttttt tctggagaat tttagtatca ttggtgatga ctggaaaacc tgcatcagaa 13560 
atcaggtcgg aagaggaaga tatatatctg atatgtactg gagaggaaga tatctatctt 13620 
atggtctaag ttcagggatc ctggtatatt cagagggcag aaagctcagc aataatcatc 13680 
aactctggga acagaggtga cataaacaca gggcgtcccc tttgtgtgac tgcagatagt 13740 
catcagtgag ctcagagctc tatgaaaatt acttgctagt ttttgggttg aaaatagtgg 13800 
gccagtgttt ggttgggggc agtgaggctg tgatggcggg ggaccatgcc aagctcctac 13860 
cagcctggga cgctaaacca gcacttcccc atttcctgaa aggggaacta aactctgaca 13920 
caggaaatgg tttgcttgca ttactttcag gatgagaaag gaagagcact ggccttccaa 13980 
acacaccccg tgcatgaaaa ctctccctgc atggggtgca tggggaggat ggggaagtgg 1404 0 
aggcaggatc acagactctt gttcgagtgc tcagctgggg caccccggtg accccgaggc 14100 
cttcccttgc taggtccacc cagatcaatc aggatcatct ccccatctcg aagtttaact 14160 
ttatcacatc tcagagttcc ttttgccacg taaggtaaca tattcacagg ttctgagaat 14220 
ccggacatgg acatctttga gggtctattg ttgtgcctac tatatccatg aataataatg 14280 
ataataagca ccattttttg agagtttgcc atgtcagata ttcttttaaa ctgtatttta 14340 
tctcgctgcc tcctgaaaaa atccttccag gtgtatattg tccccatttt tacagatgag 14400 
agaactgagg cccagaaagg ctaaatggct tgcccaagtg tatggtggac ccaggttttc 14460 
aaactcaggt gtgtctggct tcagagactg ggctcctgag cccttaagcc ctttgttccc 14520 
ctttagaaaa agtcacctga ggctgagtgg tgaagggatt tatccaaagc cacccggcca 14580 
ctatggcagg acagatatca gaatacaggt cttccgatcc cagcccagag ccccttcccg 14640 
tcatctagaa ctcctcctgg tgtcagtaat gataacggca gtcactgatg tcttttgagc 14700 
acttactttg tgttgagcac ttacactgtg ctaagcactt gacataggtc atcttagttg 14760 
atccgtgtaa aactctgtga ggtagtgacc aacatttctc ccaccttaca gaggtggaaa 14820 
ctgagggtta ggaagtttcc ttgactgtcc tcaaagtgca cagcttgtga atggaggagc 14880 
caggatgggc gcccgctggc tctcctatcc cttcagttat gtcagcgtcc cccgcagcag 14940 
cccattgtct ggttaggtcc cgtcttcacc atggtgccac cttcatctgc ctcttcttct 15000 
gccttccagc tgccacatgc aagaagtata tggccaagct gaggaccacg gtgtctgctc 15060 
agtctcgctt cctcagtacc tatgatggag cagagacgct ctgcctggag gacatataca 15120 
cagagaatgt cctggaggtc tgggcagatg tgggcatggc tggatccccg cagaagagcc 15180 
cagccaccct gggcctggag gagctcttca gcacccctgg ccacctcaat gacgatgcgg 15240 
acactgtgct ggtggtgggt gaggcgggca gtggcaagag cacgctcctg cagcggctgc 15300 
acttgctgtg ggctgcaggg caagacttcc aggaatttct ctttgtcttc ccattcagct 15360 
gccggcagct gcagtgcatg gccaaaccac tctctgtgcg gactctactc tttgagcact 15420 
gctgttggcc tgatgttggt caagaagaca tcttccagtt actccttgac caccctgacc 15480 
gtgtcctgtt aacctttgat ggctttgacg agttcaagtt caggttcacg gatcgtgaac 15540 
gccactgctc cccgaccgac cccacctctg tccagaccct gctcttcaac cttctgcagg 15600 
gcaacctgct gaagaatgcc cgcaaggtgg tgaccagccg tccggccgct gtgtcggcgt 15660 
tcctcaggaa gtacatccgc accgagttca acctcaaggg cttctctgaa cagggcatcg 15720 
agctgtacct gaggaagcgt catcatgagc ccggggtggc ggaccgcctc atccgcctgc 15780 
tccaagagac ctcagccctg cacggtttgt gccacctgcc tgtcttctca tggatggtgt 15840 
ccaaatgcca ccaggaactg ttgctgcagg agggggggtc cccaaagacc actacagata 15900 
tgtacctgct gattctgcag cattttctgc tgcatgccac ccccccagac tcagcttccc 15960 
aaggtctggg acccagtctt cttcggggcc gcctccccac cctcctgcac ctgggcagac 16020 
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tggctctgtg gggcctgggc atgtgctgct acgtgttctc agcccagcag ctccaggcag 16080 
cacaggtcag ccctgatgac atttctcttg gcttcctggt gcgtgccaaa ggtgtcgtgc 16140 
cagggagtac ggcgcccctg gaattccttc acatcacttt ccagtgcttc tttgccgcgt 16200 
tctacctggc actcagtgct gatgtgccac cagctttgct cagacacctc ttcaattgtg 16260 
gcaggccagg caactcacca atggccaggc tcctgcccac gatgtgcatc caggcctcgg 16320 
agggaaagga cagcagcgtg gcagctttgc tgcagaaggc cgagccgcac aaccttcaga 16380 
tcacagcagc cttcctggca gggctgttgt cccgggagca ctggggcctg ctggctgagt 16440 
gccagacatc tgagaaggcc ctgctctggc gccaggcctg tgcccgctgg tgtctggccc 16500 
gcagcctccg caagcacttc cactccatcc cgccagctgc accgggtgag gccaagagcg 16560 
tgcatgccat gcccgggttc atctggctca tccggagcct gtacgagatg caggaggagc 16620 
ggctggctcg gaaggctgca cgtggcctga atgttgggca cctcaagttg acattttgca 16680 
gtgtgggccc cactgagtgt gctgccctgg cctttgtgct gcagcacctt cggcggcccg 16740 
tggccctgca gctggactac aactctgtgg gtgacattgg cgtggagcag ctgctgcctt 16800 
gccttggtgt ctgcaaggct ctgtagtgag tgttactggg cattgctgtt caggtatggg 16860 
ggagcaccat caaggctaag tgtgggagca ccgagctggg ctctagaagt ctgggcccag 16920 
cttcgcctct gccaccctgc tttgcaacac tgcccagatc ccttcccttc tgggccttaa 16980 
tttcaatatg tgatgatgac agccacactt tattgactgg cctatgtgct gggtctggtg 17040 
ctatgctttc cggaatgacc tcatctaatc tctacaacca ccctgggggg taggcaggaa 17100 
tgttattatc tccattatcc ttgacttgag gctcagagaa gtgaagtaac ttgtccagga 17160 
aatggcagag ctggggttca caaattgcat cattctgatt acaggttttc tgcctcccac 17220 
cagtctatgg atacacttca gaggctccct gaaaaccttg aggtcacttg cagaaagttt 17280 
tgtgtagtat gtgtccgtat caggaacaac accaaatcag aggtgacttg tgccccatca 17340 
gagactttaa caccccaacc agatgggaat ttcaggaccc aagaaataga aagtggctgc 17400 
agggttacaa ctactgttgg attcctgagg tagcacagtg tccaaacagg atttcagcac 17460 
tacccgtatt gcttagagcc ccagccaaag atgtgaggtt ttgccctttg gagaatctgt 17520 
gcccctgaac tcgggggcct ctttccacat cttgggggca ggcaagggca gagggtgtgc 17580 
ctaggcctgc ggatcagcat gcgacagatt ccccaacatc cttccagctt gaaaggggat 17640 
tgccctgctt ctatttagaa cctataggaa agcagaagtt ctagattgaa gttaaaattg 17700 
attcccagcc tccaggggct ttgggctaca cctggatgac cttaattgac cctaagcatg 17760 
ggacaaacca cttcctgaga gtattaggat ggtatacatc ttctctgggg gcaaagcaac 17820 
aagatttatt tttcatcatg gaccaaacac atggataccc actagaaact gtgtagtgaa 17880 
ttttgttaac cctgacatag ggaccatggt ctttaggtta aagcataata acaacataat 17940 
acataacata tatagcgaat atatatatgt attatatgca atgaatgtaa atatgattat 18000 
acccatcatg gtcttggagg aaacagatga cacacttaaa atgggtgttt tgaggagagt 18060 
ttgaaaaaca gattgtttac aagccatggg caggagttag gaagagtgag agggttggtg 18120 
caggggcctg gggttagtaa cagctggggg agggtagact tgaaggggga aggggaggga 18180 
gactaattag ctggggggaa ggtatggaga cggctgcctg agcttctgca aagtggaaga 18240 
atactgcttg gccctaactc ctcaccccaa ctcttgctcg tggccagcgc cttccaccag 18300 
ctggacccat cagggaggcc gagtgggctg tctgctggag tagtccccag gcatcagcct 18360 
cccaggagcc agggacgggt agagaagggg gagagtggat ctggccaggc aaatggaaaa 18420 
cagccagcac caaactctat ttccctagga gggaggatca tgatactttg agtgggaatt 18480 
tggaaacctg tctgttggag caatttccct gatagaaata agaatgtgca ttttcctggg 18540 
tagtagactc agtttttacc ccaagaggcc aggcatcact ggcctgtgtg atcctcatag 18600 
gccagtccat ctctggaatt cttgaatgga tcatccatcc ttgattaggg atgtccccgt 18660 
gattaccagg gtgtgcagaa gggctctggg aaacctgtgg gtctgtctct gtgttcagag 18720 
aaaggtgagg gtggcctggt tctagctcat ggtgctcaga ctgtggtgtg taaaggcact 18780 
cgtggcaatg cagattcctg ggcctgcctc tagtgattcc cattcagtag gtttggggtg 18840 
gggcccagga aatctatatt tttcacagac acccctggtg attctgatac aagtggtctc 18900 
gccctgggag aactactggt ctgcagcaac cagcttggtt ttccattagc aattactgtc 18960 
cttgagcgag ttttactgct cttcacctta cacacactaa aactgccaag gccgtagggg 19020 
aggggaagca accatgaggt tgctgtgagt gcactgtgtg tgtgtgtgtg tgtgtgtgtg 19080 
tgtgtgtgtg tgtatgagag agagagagag attgagaaag agaggaaggg aggaaggggg 19140 
agggcacagg ctcctctccc acagtgccaa cctgcctctc tcccacttga agcgtttcca 19200 
tgccaactga aatcctcagc ctctaggaaa ccctatatac acagtgcccc tatataggtt 19260 
tctttagact ctggctctct cagactctag agtgatggct ttaaaagttt tatgttaccc 19320 
acagagagag agcacgcacc accatgtaaa catggaacct aagtttcaca aaatgacttc 19380 
gctttatgaa ctctgagaca ctctgctctc ttctgttctg ttctatttcc attttagaaa 19440 
tgctgctcag gaccttcaaa atgatttgca tgacctgcaa cctgcagtct gaaaaatcac 19500 
tgcactacag aagtggccat aagaggccct gagggagaag ctgcacaatg tcatggttaa 19560 
gagtggggtt tggagccaag ccgcctaggc tcaaagcctt tatgtgccgt acaaccttgg 19620 
caaagtcact tcgcttgtct gtgcctcagt ttctttctca cgaatgctca taataatggt 19680 
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tcccatttca ctggcttgtt gtgaggatga aatagtgtta ttattgagaa gtggtaaggg 19740 
tagtgatcag tgctagcgat catgattcta ggtgactttt actgtgtacc gggtgctcac 19800 
aaggctttat gtgcacagcc tggtgaggct gataatacta ttgttccctc tttttttttt 19860 
ttggaaacgg agtctcgttc tgttgcccag gctgggggta cagtggcaca atctcggctc 19920 
atgcaatctc tgcctcccgg gttcacgcca ttctcctgcc tcagcctccc aagtagctgg 19980 
gactacaggc gcctgccacc acgcccggct aatttttttg tatttttggt agcgacaggg 20040 
tttcactgtg ttaaccagga tggtctcgat ctcctgacct cgtgatccgc ccgcctcggc 20100 
ctcccaaagt gctgggatta caggcgtgag ccaccgtgcc cggcctgttc cctcttttat 20160 
agatgaagag accagcaaat aactagtaag tcgctgatca ggatcacaat atccagctga 20220 
ggcactccag agcctgagct gttaaccatt cagtcagggc ctcccaagtt tgcctaaaga 20280 
taaagaatca tgtgcacagt tgttaaaata tacagattcc tgggccccac cccgcagata 20340 
cttgattgcc agctccaggg tatgggcctg agaatctgtc ttttagggaa gctttcagat 20400 
gatgttgtga tcaggtgagt tttgggaatg gtgccccaag aggagtggca gacagggctt 20460 
gctcggcagg gactagcctg ttggagtggt gccattgggg ttaaggactg ggcagcaggg 20520 
cctcactaac cacagcctat atgcctgttt ctgaagtttt ggccactctc atccagctgg 20580 
tctactgtct gctgacctag atgatggtaa attgtcccca ggggtagcct gtctagttca 20640 
ggctgcacct ttcgcatata tcagctcctt tccaccatca tcccctttgt gaggctgctg 20700 
tgattatcat gttccttttg cagagatgga aacattgcct caaattagct ctgtcatttc 20760 
ctaaggattc cagggttctt tagtaggggg tctggatcct acgtcctggg ccatccccat 20820 
catagtgcac cacgtcacct ccctggccag ggaccgtggg gtctccactt ttttggggtg 20880 
ctccatctat gcagggtttc ctggaagcac agatgctggc acttcaggga tgaatgaaag 20940 
tctttttggg ggatttgtag atttttttct tgtcttacta gctccatttt caaatgtatt 21000 
tattttgtct ctttagtttg cgcgataaca atatctcaga ccgaggcatc tgcaagctca 21060 
ttgaatgtgc tcttcactgc gagcaattgc agaagttagc gtaagtcagc ctgggctgtg 21120 
gacaatgggc tccaagtgcc ctggtctcac cccaggtcgt gcagcctggg aagctgtgag 21180 
tgatgggctg gggcaggggc tgtttgcatg atggggggtg caggtgattc ctgcccagag 21240 
gggaagggca accctgggat ttggtgctca ctgtccaatg tgctttgctt ctgtgtctcc 21300 
tctcttctgg aactgaacag tctattcaac aacaaattga ctgacggctg tgcacactcc 21360 
atggctaagc tccttgcatg caggcagaac ttcttggcat tgaggtgagc ccaggttttc 21420 
cttattccct ggaaactatt ttttgcccca ttcctgagtc agtctgatct ggtcttggcc 21480 
tggcactgcc cacactggct cctgacctcc tgattgaatg cagggacagt gtctcatttt 21540 
aagcaggggt tctctaatgc tgtgatctcc ccagtaaact ctggactagc tctgctgagg 21600 
acttcctgtc ttttgacctt tagcccgtag ggcaagaaag cttttctagg cccctttcct 21660 
tttctgtgtc taagagtgtc acagctttct ggggttactg agttccacga tgcatgttga 21720 
gctcgtcctg gtgggggagg catacacagt tacttgccac cccagctgtg gcagcgagtt 21780 
gctgcaacac tcccaggagg tcctttcacc actcagagca tgcaaggttt gcagtccatc 21840 
tggttctgca tttctgctac tccagtgtct cccagtttca acaggagtct ctctctctcc 21900 
tacctgatgc ctttaaattg cccctctagc tggccgctgg gttggcctgg cttctctctc 21960 
cttctctctc tctcagatat tcttgcctcc tgtgatttgt gaggcagtaa aaaaagacaa 22020 
agtaaagaat tgcttccatc tattctttta cctcttgggc tgggtttgtg gatgggagcc 22080 
gccattttaa aatggcgggc cacatagctc agtctcggca agggctactg agatcagaac 22140 
cacaggtgcc aatttgtaca aaggactcag tcctgctacc actgcctgat ccctcagact 22200 
cacaagcctg gaataggctg tggccagacc tggctggccc atccctgaga agggtgctag 22260 
tttcagaaat ggaggctgag tttgtggcca acacagtagt cctccggtat gtgcaggaga 22320 
gatgttctaa gaccccagtg gatgcctgaa accatggaga gtatcaagcc ctacacatac 22380 
catgcttttc ccaataccta cacacctgca ataaagtgta gtttataaat taggctcagt 22440 
aagagagtaa tagcaactca taataaaata gaacaattat aacaatcaat atactataat 22500 
aacactatgt gaatgtggac tctctccatc tccctcaaaa tatcttcttg tactgtactc 22560 
acccttcttc ttgggaagat gtgtggtggt aaaatgcctg tgtgatggga ggaagtgagg 22620 
tggatgacgc atgcagcact gtgctctagc gctgggctgc tgttgacctg accacacttc 22680 
agaaggagaa tcatctgctc ccagagatcc ctaatctttg agcaacaatg aggtcggcag 22740 
ctggatgtca ggagcagacg atcttgatga ttaccaaatg ggagcgtata gagcgtggat 22800 
gcgctggacg gggggctgat tcacgtcctg ggtgggatgg agctggatgg cacgtgatca 22860 
gaatagcatg caatttaaaa tgtatgaatt gtttatctct agaattttcc atttaatatt 22920 
tttggactgc agttgatttc agataactga aaccatagaa ggcgaagctg cggataagca 22980 
gggggcaggg attaccgtat atcattgtaa tagagagcac aggctctgga gccagactgc 23040 
ccgaggtttg aaccctcatt agctgcgtga cctcaggtca gcccaatgtc tgtgtgcctc 23100 
cgtttcccct tctgtagaat ggaggtaata accctggcta cctcacaggc tgtagtgatg 23160 
agcaagcaag ttaatccaca tgaagggctg caccgtctgg caggggcttt atatagtaag 23220 
cgagtggctg aaagatgatg ggtaaatcac acaagcactc agcttgtttc tccttatgtg 23280 
agtccggtcc tccaagcagg gattcaatgt gccacccatt tattggggaa aagtcctaaa 23340 
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aggggaagtg gggaagggag ctgggggagg ctgggaggtg tgtccctgag tgaaggagag 23400 
agggaaggaa ggaaggttga gactgggcac cttggacttc agtgcagtcc taagacatct 23460 
tggcaaggct gatgaggagt tcttgaacca aattcaccag gcaggggagc ctgatgtctc 23520 
aggcaggggc tggcaagtgc agatgcgagg atgttagatt ttggagcaca gcagctgggg 23580 
cccttggcta cctccaagga gctgaggctg gagacctgaa aggcgagttc tcctagctgc 23640 
cacacccctt ctccaaggat acaataatat ctgccttata ggattgttgt gagctgagtg 23700 
gcttgacgtt ccttgaaaga atgaaagcgt atagttatcc caggaagcct agggttgcag 23760 
gtgagagctc tggggcttct ccgaagctct ccgaggtgtc tggattcagt tgcagcagga 23820 
gccttccttg ctgggatctt cccccacccc tagccttggc cctccctctc tccttccttt 23880 
ctggaaggct cagtgggccc cacccctccc tccagccacc tggacctgcc cagcgctctt 23940 
gtgcaacagg taaagcctac ctgtagcaac aacagatctg ggaaggctgc agagggcacg 24000 
atggggtctg gatcgagggc ggctgagacc agagggaaag gtgtgaccct gagtcaccct 24060 
cgctgtcccg gggaaaccac ctcccaggac agctgcctac tgtggctcct gcctggaatt 24120 
gtcacactgc tgtgcaaaca gcgtcccgct gcccctttcc ctttgctggg ggaaaatgaa 24180 
gttgtgggag ccgctgagta aactagacct agcagcgagg gcacctgatg tggctgctgc 24240 
ctcccgggca ggtcttcaat gctttcttcc tgtgtttccc tggccagggc acagacggcc 24300 
ctccttttct gcctgccgct gtgttctctc agcctcctct gtcttccctt ccaggctggg 24360 
gaataactac atcactgccg cgggagccca agtgctggcc gaggggctcc gaggcaacac 24420 
ctccttgcag ttcctggggt aggttggatt ccaggaagag ggacctgcat ggaggggctt 24480 
gggacttttg aggatttagg ggcaggtgaa actcttcagc caggaggccc cagaggcagc 24540 
ccagctccag tggggaggac aagccaggga gagagtgggc ggcccttgac tgccaccttc 24600 
atacttggtc tatgcctgac aaacaggaag tttgggatgt tggggctagg ggaggacagt 24660 
gcccacgagc tggtgacagg aagccctctg atcctcaggg ggcgctaggg ctgtacttta 24720 
gctgcatatt aaaaccacct ggaagcttct aaacactatt gccaggcctc ccaccccaga 24780 
ctgatgaaat gcaaatatct aggtgcaagg cccaggtatc aggagtttta aaaagcttcc 24840 
caggggatgt acagccaggg gtgaggaccc ctgacctaag aaagagaagg aaatggggaa 24900 
ggataggaag gcacccagga taagaggggc tgtgctaggt ccctcggagc tcttgctccc 24960 
tgtaggacca tgctagggcc tgccagggag gggagtaccc caacctgcag ccccagggtg 25020 
ggcttcctct gtttgctagg cacccaggct tgcacctgtg ctgtttccag cagcctctct 25080 
cctatcctgt catgccctag tgtgaactgg agtccatttg acaagaactg ggagttttag 25140 
aacctgggac tgtaggaaga gagaataacc ttagggccta ggtgttccag cccatttcac 25200 
agggaggcaa gttgccccca agctcagttt tttgttttgt tttgttttgt ttgagatgta 25260 
gtctcactct gttgcccagg ctagagtgca gtggcacgat cttggctcac tgcaacctcc 25320 
gcctccttgg ttcaagcgat tcacctgcct cagcttctca agtagctggg attataggca 25380 
cccaccacca cgcccagcta atttttgtat ttttagtaga gacagggttt caccatgttg 25440 
gcccggctgg tcttgaactc ctgatctcag atgatccgcc cgcctcggcc tcccaaagtg 25500 
ctgggattac aggtgtgagc caccgcaccc ggcccccaag ctcagtttga gccacaaatg 25560 
ggactatgtt gctctagaaa tcaacatctt ttccacactg cattagtagc aacagagtct 25620 
agaacaaagg aggccacagc cccactgaac tctcttctgc ttgaggtcac atctgccaca 25680 
tcaggggtat ttacctcttt caacacatat ttattagggc acctgtctgg gccaggcgtt 25740 
gtgctaaaac ccccaaacgc tgtcatatga tacaaagtgt tctgtaactt gcttggtttt 25800 
tttttttgtt tgtttgtttg ttttgttttg tttttgttgt tgtttttttt tgcttcgcca 25860 
tatattatag gaattttttt aggtcattat gacctcttta tttacttaat tatctattta 25920 
tttattttac taatatttac agaaagggtc tcactctgtc acccaggctg gagtgcagtg 25980 
gttgcaatca tagctcattg tagccttgaa ctcctgagct caagtgatct tcctacctcg 26040 
gcctcctgag tagctgggac tacaggcaca agccaccatg cctggccgat atttttatgt 26100 
tttgtagaga cggggtctca ctatgttgcc caggctggtc tcaaactcct gggctcaggt 26160 
gatcctccct cctttgcctc ccaaagtatt gggattacac aagtgagcca ccttgctcag 26220 
cctgacctca tttttcaaag agctgcagag tgttacataa tgtatttaac tggtcacttt 26280 
ttgatgacta ttaagttgtt ttcaggtttt ttgttattac agtgtcatat ccctggggca 26340 
cagagcagtg ctggcacata gccagagctc aatcgataca tacctaatga atgaaagtac 26400 
agtggacatc ctaattcagc cattctttgc taacttgtgt acatacctgt ccagggtagg 26460 
tccctagaat acagtcaata agtcagaagg tgtgagttgg gatctacctt ttggaaaggg 26520 
atgttttcaa actacagtga gtcagaggag gatggcccag aagctggggg agttgaagct 26580 
gatggcgtga aggaattagg ggtgttagga agaagcagga gataaagagc tagcttgcag 26640 
aagaagtgtt agacttgtta tgggcaggta ctggagggta gctaaggact tgtgggtggc 26700 
agttaccagg aagcgtatct gaactaagtg tcagaaaaag tgtcacaact gtaaattact 26760 
cttgtcagtg agttcctgtc cttaagggtt agggctgggt agccctctac tattctctaa 26820 
gtctgtaatg taaagccact gaaaactctt gggttaagtt tggccatccc acccaaaaga 26880 
tggaggcagg tccactttgc tgggaccagg agccccagtg aggccactct gggattgagt 26940 
ggtcctgccc ctctggctgg gactgcagag ggaggaggac tgttagttca tgtctagaac 27000 
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acatatcagg tactcactga cactgtctgt tgactctttt ggccttttca gattctgggg 27060 
caacagagtg ggtgacgagg gggcccaggc cctggctgaa gccttgggtg atcaccagag 27120 
cttgaggtgg ctcaggtaag cttcagagtc tatcctgcag ttttcttggg gagatcaggt 27180 
gaagagggag gagctggggc cagttctgaa ggtctttgaa ctttatttct accccacaat 27240 
gttaggcaat ggagtaagga aaaaagacca ttggatttca agagaggaca cttgagtctt 27300 
tctgggtgac ttggaaatgt cccttgtcct ctcagggttt tgatacagta tctgtaaatt 27360 
gaagatattg ggctggatca ggtacatttt atcttaaggg ccaattccaa tccattggta 27420 
gtgggtgccc agtgcaccac attaaaaaga attctaaggc tgcacctggg cttaaagaag 27480 
agcactataa tcaattagtg atgtctaaaa aagctaaaaa aaaaaaaaaa gagcactgca 27540 
ttcaattagt gatgtctaaa aagggtagaa aaaaaaaaaa aaagaaaaaa gaaagagcac 27600 
cgcaatcaat tagtgatgtc tgaaatggag cagaccagga gagcaccacg aattttgccc 27660 
tccataggtt agctcatctc tgaggtcttt ccctgctctg acatactttt gttccatgat 27720 
tacctccagc ctggtgggga acaacattgg cagtgtgggt gcccaagcct tggcactgat 27780 
gctggcaaag aacgtcatgc tagaagaact ctggtgagtt tgggggattc tctgctctgg 27840 
ggaagtggat cacaatctct gttgatcccc tggcctcatc cataggagcg gttgtgtgga 27900 
cagacaaagg tggatgattg agtgattgac tgattgattg attgtgtttg tctttatatg 27960 
tactgagtgg tatgaagctt atagagcctg gtatgtacat gctaattttt ttatttaata 28020 
aaatatatgg gtttgctggt ttggtgactg cctccacatg gcataagtgt taagagcaca 28080 
gactctgtaa tcaagcaggc cgtgatctta ggcaagttaa ataacaattt cagaatctca 28140 
agtttcatgt ctgtaaaatg agggtaagaa tacttccaac cataaaggat ttttgcaaga 28200 
attagataaa gtagtgcctg tgaagacctt aatatagtgc ctggcatatt tgtaagtgct 28260 
ccataaatgt taaattagaa taatggcagg gttactacta ctattactgc tgctgctgct 28320 
gctgctgctg ctacaactac tatagtactg tgactactac tactaataaa gttttgttat 28380 
tttaaagtga ttttgagttc ctaggagcac tgggtattca agtcttaggt cattttggaa 28440 
ggtgtaatgg agttttgata gttgaaagag gaaccatgaa tcatgcttat actgttgacc 28500 
tgaagcagat tctaagtttc tcatccttta gatgccacta gtatagtttt ctgacatgtt 28560 
ctgggcagct tcagattatg tcagggagat aaaatactga atgtttgatt ttcccgggaa 28620 
gcagaaaggc actgcaacat atgggcattg ccataaacag attttatgga tggaccttgg 28680 
ctgttgcagg gcttactagc tctactcaag tatgattgat tctatcctga ctggattttg 28740 
ccacttggaa tttcttagta gaggagaacc ttgttatgag agcatcagtt atgattactg 28800 
ttaaaagaaa aactttaggc aaattaaatt tagcagaact ggtttgaaca tacagcaatt 28860 
tatgaattgg gcagcattca gaactgggag tgctccaccc agcaaggtag gcaagcagta 28920 
tctatagaca ggaaaaggaa gtgatgtaca aaacagcttg attggttgca gctgggcatt 28980 
tgccttatat gggcatggtg tgatgaggca ttttctttat atggatatag actgatcagc 29040 
tggtagactg tgactgactg aagcctggct gctgtgattg gctaagactt agctgtttgt 29100 
tataaggata tgttgttagg ttgcagtttg ctacatagga actcaaagta cagaggcagt 29160 
ctcaggccaa atttagttta actatatgtt aagctgcagg tgacagaata cctccatcta 29220 
tagaggttta aacaaggaaa gggtttattt tttcctgtat aggcagctgg atgtaggcag 29280 
tgtagggttt gtacagtggc tacaagaggc caggaggggt ctcagctctg tctcattctc 29340 
ttcctgttcc atcatcctta gcctgtaact tcattcacat ggttggttgt ctcatgatca 29400 
caggatggct gctccaggtg cagcactact tctgtattcc cggattcgat ctatataccc 29460 
aggaaagcca tctgggttct ctcctttaaa aagcattcct ggaagcccca cctgtcgact 29520 
tccccttatg tatcaaccat gtgtatgtca cttgaccaac ccacttgtat gttgtttgac 29580 
cagccctggc tgcaatggag agtgggaaat acagtttttt caccaagtgc atggctgtcc 29640 
aaatgaaatg agacttccat taataaggaa gaaaggaaag atggagatca ggaagctggg 29700 
ggatcaggga acttattaca ttgagagccc ttggagtgaa ttctcttgca aatatgtccc 29760 
tggaattgag aatccccaca acgtctttat ctgttctttc tttatccatg agtttgggtt 29820 
ttcagatgtt ggatttccta tatggggggc atgtgagttc atcatcttcc ataatcaatg 29880 
ttgtatcaac tggattttct ctcttcttct caccagcctg gaggagaacc atctccagga 29940 
tgaaggtgta tgttctctcg cagaaggact gaagaaaaat tcaagtttga aaatcctgaa 30000 
gtaaggaacc cataagcagg aaacaggaca ataattgctg gcctttggaa ggggcatttc 30060 
tgattaagat ctgggccgct ctccgctggg ctaactcatg tgaggtggcc tggtagaaca 30120 
gcttgccttg gtctaggtgg acaaggattp cagtgcaagt tgtttatctg ggaggtggtc 30180 
ccagtaaatg ctgataggag agtggtgaag tgagatgggg aagtgaaggt aaccaataaa 30240 
ggggagttat caagccagtt atcaatgagg gaaattggag ctcagtactc tggggcactc 30300 
ctggagccag tgcagaacac acatggtcac ctacccaacc aatgggcaag aaagccatgg 30360 
catttatcca ccaaccctct gtccttccta tgttgatgtg cgctcatggg gcactgattc 30420 
tccagcactt ccagctcacc ctcacccagc tgaacatgct tctggggtca ggagaatggc 30480 
ctcaggcaga gagtggcagg tcttctctgc aagcagtggc tggggaggtg atgtgatggg 30540 
gagtactgtg gcctcctcca gtggctgact cagtggcttg ggacttgtgc cacaaagaga 30600 
tggacagctc aggtgaacat gaacccacct agtgaccatc atgggtttgt cagggtgctc 30660 
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tctgaggctg atgccaaaat tcttatttca agtagacctc aggaacccca tcagatggct 30720 
ccttttgctg gaggaaagtg gcatctgcct aggcaaatgt ggtcctagga aaacgcttgc 30780 
ctttagagac agacagacag acagctgcct ctgtgagtgc cagctttgct gccaggctgc 30840 
tacccactct ggcgacactc atttgtgttg ctttcacaag ctaggaagtt tccaaatatt 30900 
tggagaaaac acttccacta attatttggg tggaaatggg ctgggaagtt ggggtgaagc 30960 
ccggatgtgt ctgagccaga tgccagcttt gcactgaggg tcggcctttg ggaataccaa 31020 
gcccattatc aaccaggtgt ggatatggca ggtttgtctt ccctccttgt cacagcctta 31080 
ctccacttga ctcccatgga tgccaggcaa tgaggctggg gttggtccca tgccaccctg 31140 
tcatcagcct tatttttcag catcctaaac tatatcatcc cccacaaaaa ttgaacttct 31200 
gatatatctt ttataaaaaa gagaaatgcc tacatctttc ttttccagga ttagtttctg 31260 
ccaagagttg gttgagagcc caggcttgct gggtgcagtg gctcacacct gtaatcccag 31320 
cactttggga ggctgaggcg ggtggatcac ctgaggtggg gagttccata ccagcctgac 31380 
caacatggag aaaccccatc tctactaaaa atacaaaatt agccgggcgt ggtggcatac 31440 
acctgtaatc ccatctactc aggaagctga ggcaggagaa tcacttgaac ctgggaggtg 31500 
gaggttgcca tgagccaaga tcacaccatt gcaccctaga ctggacaaga gagaaacttc 31560 
catctcaaaa aaaaaaaaaa ggatgagaaa aataataatt taaaaaaaag agtccaggct 31620 
ctggaaccag acagcctggg tcttacccct gctccaccat taccagccag ttcttcttgg 31680 
atgagtgcct cagttgcctc aagtgtaaat ggagataatg gctggacctt cattataggc 31740 
catgagcatt cactgagaga atgtagctaa caaaagtgag ttgtaggttg gagcaaaagt 31800 
aattgtggtt tcagaccatg aactttaaat tattataact aggctaaaat acatctttat 31860 
taatcaaaat aggaaccatt aaaatcaaca catttttgcc aataagaaat aagtttgttt 31920 
attcctgtag cataaaaatt catgcttcgg gattcaacaa actcttggaa agcattttct 31980 
gcatcctcct ggttgtggaa gcatttttcc tgcagaaagt tgtcaagatt cttgaagaaa 32040 
tggtagtcag ttggctagag gtcaggtaaa tatggcggat gaggcaaaac ttcatagtcc 32100 
aattcattca acttttgaag ctttggttgt gtgacatgca gtccggttgt tgtcgcggag 32160 
aattggaccc tttctgttga cgaatgccgg ttgcaggtgt tgcagttttc agtgcatctc 32220 
attgacttgc cgagcatact tctcatatgt aatggtttcg cagggattca gaaagctgta 32280 
ggggatcaga ctagcagcag accaccagtg accatgacct tttttttttg gtgcgaattt 32340 
gcctttggga agtgctttgg agcttcttct cggtccaacc actgagctag tcattgccag 32400 
ttgtataaaa tccacttttc atcgcacgtc acaatcagat caagaaatgg ttcgctgttg 32460 
ttgtgtagaa taagagaaga tgacacttca aaatgacgat tttcttggtt ttcactcagc 32520 
tcatgaggca cacacttatc gaggtttttc acctttccaa tttgcttcaa atgctgaatg 32580 
accatggaat ggtcgatgtt gagttctcaa gtagttgtaa gaaaatcagc tttgatgatt 32640 
gctctcaatt ggtcattgtc agcttctgat ggcctgccag tacactcctc atcttcaagg 32700 
ctcttatctc cttcgcaaaa cttcttgaac caccactgca ctatacgtta gttagcagtt 32760 
cctgggccaa atgcattgct gatgttgtga gttgtctccg ctgctttaca acccattttg 32820 
aattcaaata agaaaattgc ttgaatttgc tttttgtcta acatcatttt catagtctaa 32880 
aataaatata aaataaacag aaagtattaa gtcattagca aaaaatcata aagtgagaat 32940 
tgtgcattaa aatgatgtat agcataacca catttattta agaatgtatt ccaatatcaa 33000 
atggcaaatt tcaacaatgc aaaaactgca attacttttg caccaatcta atagaagttc 33060 
aataaatact ggcaattaca attggcattg ccttagggtc aacttgtaag acattcctga 33120 
aattgtggga aagggggagg acctggagtg gacattattg gaaggcaaag ctgtaaccaa 33180 
aagagcaacc tgggaaacac atgactcctc tgttgctgtc cctggcccta tcctgtctcc 33240 
cctccctgtt gtcagctacc tcatatgttc tctaatctct gtctctgtgc cctcaaagac 33300 
ccccctgaaa atagaaatat tactgctcat tggttatttt ctatcaatta agtactgtat 33360 
tagtccgttt tcatgctgat gataaagata tacccaagac tgggcacttt atgaaagaaa 33420 
gagttttatt gaacttacag ttccacgtgg ctggggaggt ctcacaatca tggctgaagg 33480 
tgaaaggcac atctcacatg gcagcagaca ggagaagagg gcttgttcag ggaaactccc 33540 
ctttttaaaa ccatcagata tcatgaaact tatttactgt aatgagaaca ggatgggatt 33600 
caattacctt ccactgggtc gctcccacaa cacgtgggaa ttcaagagat ttgggtgggg 33660 
acacagccaa accatatcaa gtactgtgca agtgttttag gcatgcagag agtggtgggt 33720 
cttcccagca agcagagtgt ggggaggtaa tgggggactg gtggctgact taatggccca 33780 
ggacccatgc cacaaggaga tggatggtgg atgtgaatag gagcctgctt acacccatca 3384 0 
caatttagat tcttatgctc gatggcacgg gtactctttt aggcccattt taccaatgag 33900 
gagattggga ctaatttgct cgagatcaaa aaagaagtgg tgtaggtggg atttaaaccc 33960 
aggatgtcta gcactaaaat gcaggtactt aaccactatc ctaagggagt ggctacttaa 34020 
tttgataaac tcatctagtg aatggaagag agacggttac atttcactga tggtactgag 34 080 
cctttgttga tgagctcatt gggaatctca gacatgagca ggatgtgtct aagggacagg 34140 
tgggcttcag tagactggct aactcctgca gtctctttaa ctggacagtt tcaagaggaa 34200 
aaccaagaat ccttgaagct caccattgta tcttcttttc caggttgtcc aataactgca 34260 
tcacctacct aggggcagaa gccctcctgc aggcccttga aaggaatgac accatcctgg 34320 
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aagtctggta aggcccctgg gcaggcctgt tttagctctc cgaacctcag tttttctatc 34380 
tgtaaaatgg ggtgacggga gagaggaatg gcagaatttt gaggatccct tctgattctg 34440 
acattcagtg agaatgattc tgcatgtgaa ggatctgatt ctctgtctaa gaaagaagtc 34500 
tttacctctt taagtaggga gcaatgattt catttttaaa ccttgactat ttattcagca 34560 
acttctctgc tctatgagat agtgtaggaa tggggatgtg gttgaagaat gaaaagaaaa 34620 
gtcagctccc gccctcctag aaattgcatc tgccttcaca ggtcaaggat attggatcag 34680 
accttctgcg gttctgaatg gagattacac aggttaggag caggttgcac agtgtttcca 34740 
attctctata attaaagcca tagactttca tgtattgaaa aaagcaagaa ttgcattctt 34800 
gacagattct ttcattgcct taaaaagaat gactagcctt gggagtctgg gcagctgggt 34860 
ccagtgttgt agactttctc tctgctgagc cacagcttca aagatttgtc cttcttgttt 34920 
ccagggatct atttctcaga caataagtaa aggctttccc tggcctaatg tgctgtaagt 34980 
gaatgctact atatatgttc caggcactgg gctagagact aatatttaaa agccaggaaa 35040 
tttcctatag aaaatctata tctcagggtt ttctcaaaag agctgggaac tctggatgcc 35100 
cattcatgat tccagtagtt aaccagagta caagaagggc tgagtcttct cagatgggca 35160 
aacccactct ggctgactgc agatccacca agcctattgt cttagaccag gaccctttgg 35220 
caactcattc ccataagcct gtgacccttg ctttaaatat gcaggccttg tcttctctca 35280 
aaaagcacat caaggctgca gcgaatgcag atatcaaatg atgaagttaa aaacaaaagc 35340 
tttgctgggc gtggcagctc acacctgtaa tcctagcact ttgggaggct gaggcaggag 35400 
gatcacttta ggccagaggt tcaacaccag accttgtctc tcaaaaaata aaaaattcag 35460 
ctgggtgcgg tgtagttcct agccacttgg gaggctggga tggaaggatc ccttgaaccc 35520 
aggagttcaa ggctgcagtg ggccatgatt gcatcactgc acaggcgaca gaattagatc 35580 
ccatctctta aaaaaataaa aaatttaaaa gtgacttcaa aaatctatgc tgtgatggag 35640 
agatttttcc ttctgtatga ttgtgatagc tctgtggcct atgacgtcat caggttctgg 35700 
gcaaagtgta ggttttctgt ttctttgttt ttgaaaccat tgcacagtcc taagaaacat 35760 
cacattctgg gtcctgggca ccagccaaca tgaggtgagg gcaccagggt ttgctcattg 35820 
cattcttgac agattctctt attgccttaa aaagaatcac tggccttggg gagtctgtgg 35880 
ctggctgggt gcagtgttgt ggactctctc tgcagagtca tggagccttg ttcagaatgc 35940 
ttcctgagct gccctggttg gccaagggta aaaacagccc tgacttccct gcaagaaaca 36000 
ctgcagctgg gccagagagt cagcccatcc caggcatggg tttaaaaagt ggaggctttt 36060 
gtttgaaagc cctgctctaa ttttgtcctc actcaaacct ctgttcactt gatctgcttt 36120 
aggctccgag ggaacacttt ctctctagag gaggttgaca agctcggctg cagggacacc 36180 
agactcttgc tttgaagtct ccgggaggat gttcgtctca gtttgtttgt gagcaggctg 36240 
tgagtttggg ccccagaggc tgggtgacat gtgttggcag cctcttcaaa atgagccctg 36300 
tcctgcctaa ggctgaactt gttttctggg aacaccatag gtcaccttta ttctggcaga 36360 
ggagggagca tcagtgccct ccaggataga cttttcccaa gcctactttt gccattgact 36420 
tcttcccaag attcaatccc aggatgtaca aggacagccc ctcctccata gtatgggact 36480 
ggcctctgct gatcctccca ggcttccgtg tgggtcagtg gggcccatgg atgtgcttgt 36540 
taactgagtg ccttttggtg gagaggcccg gcctctcaca aaagacccct taccactgct 36600 
ctgatgaaga ggagtacaca gaacacataa ttcaggaagc agctttcccc atgtctcgac 36660 
tcatccatcc aggccattcc ccgtctctgg ttcctcccct cctcctggac tcctgcacac 36720 
gctccttcct ctgaggctga aattcagaat attagtgacc tcagctttga tatttcactt 36780 
acagcacccc caaccctggc acccagggtg ggaagggcta caccttagcc tgccctcctt 36840 
tccggtgttt aagacatttt tggaagggga cacgtgacag ccgtttgttc cccaagacat 36900 
tctaggtttg caagaaaaat atgaccacac tccagctggg atcacatgtg gacttttatt 36960 
tccagtgaaa tcagttactc ttcagttaag cctttggaaa cagctcgact ttaaaaagct 37020 
ccaaatgcag ctttaaaaaa ttaatctggg ccagaatttc aaacggcctc actaggcttc 37080 
tggttgatgc ctgtgaactg aactctgaca acagacttct gaaatagacc cacaagaggc 37140 
agttccattt catttgtgcc agaatgcttt aggatgtaca gttatggatt gaaagtttac 37200 
aggaaaaaaa attaggccgt tccttcaaag caaatgtctt cctggattat tcaaaatgat 37260 
gtatgttgaa gcctttgtaa attgtcagat gctgtgcaaa tgttattatt ttaaacatta 37320 
tgatgtgtga aaactggtta atatttatag gtcactttgt tttactgtct taagtttata 37380 
ctcttataga caacatggcc gtgaacttta tgctgtaaat aatcagaggg gaataaactg 37440 
fct S 37443 



<210> 4 

<211> 1315 

<212> ADN 

<213> Homo sapiens 



<220> 
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<221> CDS 

<222> (117) . . (1118) 
<400> 4 

cgatcagaag caggtcacac agcctgtttc ctgttttcaa acggggaact tagaaagtgg 60 

cagcccctcg gcttgtcgcc ggagctgaga accaagagct cgaaggggcc atatga cac 119 

His 
1 

tec tec egg ace cct gga cac aca cag ccc tgg aga ctg gag cct tgg 167 
Ser Ser Arg Thr Pro Gly His Thr Gin Pro Trp Arg Leu Glu Pro Trp 
5 10 15 

age atg gca agt cca gag cac cct ggg age cct ggc tgc atg gga ccc 215 
Ser Met Ala Ser Pro Glu His Pro Gly Ser Pro Gly Cys Met Gly Pro 
20 25 30 

ata ace cag tgc acg gca agg ace cag cag gaa gca cca gee act ggc 263 
lie Thr Gin Cys Thr Ala Arg Thr Gin Gin Glu Ala Pro Ala Thr Gly 
35 40 45 

ccc gac etc ccg cac cca gga cct gac ggg cac tta gac aca cac agt 311 
Pro Asp Leu Pro His Pro Gly Pro Asp Gly His Leu Asp Thr His Ser 
50 55 60 65 

ggc ctg age tec aac tec age atg ace acg egg gag ctt cag cag tac 359 
Gly Leu Ser Ser Asn Ser Ser Met Thr Thr Arg Glu Leu Gin Gin Tyr 
70 75 80 

tgg cag aac cag aaa tgc cgc tgg aag cac gtc aaa ctg etc ttt gag 407 
Trp Gin Asn Gin Lys Cys Arg Trp Lys His Val Lys Leu Leu Phe Glu 
85 90 95 

att get tea get cgc ate gag gag aga aaa gtc tct aag ttt gtg gtg 4 55 
He Ala Ser Ala Arg He Glu Glu Arg Lys Val Ser Lys Phe Val Val 
100 105 HO 

tac caa ate ate gtc ate cag act ggg age ttt gac aac aac aag gee 503 
Tyr Gin He He Val He Gin Thr Gly Ser Phe Asp Asn Asn Lys Ala 
115 120 125 

gtc ctg gaa egg cgc tat tec gac ttc gcg aag etc cag aaa gcg ctg 551 
Val Leu Glu Arg Arg Tyr Ser Asp Phe Ala Lys Leu Gin Lys Ala Leu 
130 135 140 145 

ctg aag acg ttc agg gag gag ate gaa gac gtg gag ttt ccc agg aag 599 
Leu Lys Thr Phe Arg Glu Glu He Glu Asp Val Glu Phe Pro Arg Lys 
150 155 160 

cac ctg act ggg aac ttc get gag gag atg ate tgt gag cgt egg cgc 647 
His Leu Thr Gly Asn Phe Ala Glu Glu Met He Cys Glu Arg Arg Arg 
165 170 " 175 

gee ctg cag gag tac ctg ggc ctg etc tac gee ate cgc tgc gtg cgc 695 
Ala Leu Gin Glu Tyr Leu Gly Leu Leu Tyr Ala He Arg Cys Val Arg 
180 185 190 

cgc tec egg gag ttc ctg gac ttc etc acg egg ccg gag ctg cgc gag 743 
Arg Ser Arg Glu Phe Leu Asp Phe Leu Thr Arg Pro Glu Leu Arg Glu 
195 200 205 
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get ttc ggc tgc ctg egg gec ggc cag tac ccg cgc gec ctg gag ctg 791 
Ala Phe Gly Cys Leu Arg Ala Gly Gin Tyr Pro Arg Ala Leu Glu Leu 
210 215 220 225 

ctg ctg cgc gtg ctg ccg ctg cag gag aag etc acc gec cac tgc cct 839 
Leu Leu Arg Val Leu Pro Leu Gin Glu Lys Leu Thr Ala His Cys Pro 
230 235 240 

gcg gec gec gtc ccg gee ctg tgc gec gtg ctg ctg tgc cac cgc gac 887 
Ala Ala Ala Val Pro Ala Leu Cys Ala Val Leu Leu Cys His Arg Asp 
245 250 255 

etc gac cgc ccc gec gag gee ttc gcg gee gga gag agg gee ctg cag 935 
Leu Asp Arg Pro Ala Glu Ala Phe Ala Ala Gly Glu Arg Ala Leu Gin 
260 265 270 

cgc ctg cag gee egg gag ggc cat cgc tac tat gcg cct ctg ctg gac 983 
Arg Leu Gin Ala Arg Glu Gly His Arg Tyr Tyr Ala Pro Leu Leu Asp 
275 280 285 

gee atg gtc cgc ctg gee tac gcg ctg ggc aag gac ttc gtg act ctg 1031 
Ala Met Val Arg Leu Ala Tyr Ala Leu Gly Lys Asp Phe Val Thr Leu 
290 295 300 305 

cag gag agg ctg gag gag age cag etc egg agg ccc acg ccc cga ggc 1079 
Gin Glu Arg Leu Glu Glu Ser Gin Leu Arg Arg Pro Thr Pro Arg Gly 
310 315 320 

ate acc ctg aag gag etc act gtg cga gaa tac ctg cac tgagccggcc 1128 
He Thr Leu Lys Glu Leu Thr Val Arg Glu Tyr Leu His 
325 330 

tgggaccccg cagggacget ggagatttgg ggtcaccatg gctcacagtg ggctgtttgg 1188 

ggttcttttt ttttattttt ccttttcttt tttgttattt gagacagtct tgctctgtca 1248 

cccagactga agtgcagtgg ctcaattatg tctcactgca gcctcaaact cctgggcaca 1308 

agcaatc 1 315 



<210> 5 
<211> 334 
<212> PRT 

<213> Homo sapiens 
<400> 5 

His Ser Ser Arg Thr Pro Gly His Thr Gin Pro Trp Arg Leu Glu Pro 
1*5 10 15 

Trp Ser Met Ala Ser Pro Glu His Pro Gly Ser Pro Gly Cys Met Gly 
20 25 30 

Pro He Thr Gin Cys Thr Ala Arg Thr Gin Gin Glu Ala Pro Ala Thr 
35 40 45 

Gly Pro Asp Leu Pro His Pro Gly Pro Asp Gly His Leu Asp Thr His 
50 55 60 

Ser Gly Leu Ser Ser Asn Ser Ser Met Thr Thr Arg Glu Leu Gin Gin 
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65 



70 



75 



80 



Tyr Trp Gin Asn Gin Lys Cys Arg Trp Lys His Val Lys Leu Leu Phe 
85 90 95 

Glu He Ala Ser Ala Arg He Glu Glu Arg Lys Val Ser Lys Phe Val 
100 105 110 

Val Tyr Gin He He Val He Gin Thr Gly Ser Phe Asp Asn Asn Lys 
115 120 125 

Ala Val Leu Glu Arg Arg Tyr Ser Asp Phe Ala Lys Leu Gin Lys Ala 
130 135 140 

Leu Leu Lys Thr Phe Arg Glu Glu He Glu Asp Val Glu Phe Pro Arg 
145 150 155 160 

Lys His Leu Thr Gly Asn Phe Ala Glu Glu Met He Cys Glu Arg Arg 
165 170 175 

Arg Ala Leu Gin Glu Tyr Leu Gly Leu Leu Tyr Ala He Arg Cys Val 
180 185 190 

Arg Arg Ser Arg Glu Phe Leu Asp Phe Leu Thr Arg Pro Glu Leu Arg 
195 200 205 

Glu Ala Phe Gly Cys Leu Arg Ala Gly Gin Tyr Pro Arg Ala Leu Glu 
210 ~ ^ 215 ' 220 

Leu Leu Leu Arg Val Leu Pro Leu Gin Glu Lys Leu Thr Ala His Cys 
225 230 235 240 

Pro Ala Ala Ala Val Pro Ala Leu Cys Ala Val Leu Leu Cys His Arg 
245 250 255 

Asp Leu Asp Arg Pro Ala Glu Ala Phe Ala Ala Gly Glu Arg Ala Leu 
260 265 270 

Gin Arg Leu Gin Ala Arg Glu Gly His Arg Tyr Tyr Ala Pro Leu Leu 
275 280 285 

Asp Ala Met Val Arg Leu Ala Tyr Ala Leu Gly Lys Asp Phe Val Thr 
290 295 300 

Leu Gin Glu Arg Leu Glu Glu Ser Gin Leu Arg Arg Pro Thr Pro Arg 
305 310 315 320 

Gly He Thr Leu Lys Glu Leu Thr Val Arg Glu Tyr Leu His 



325 



330 



<210> 6 
<211> 8135 
<212> ADN 

<213> Homo sapiens 



<220> 

<221> exon 
<222> (1) . . (161) 
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<220> 

<221> exon 

<222> (3812) . . (3950) 

<220> 

<221> exon 

<222> (5426) . . (5577) 

<220> 

<221> exon 

<222> (7273) . . (8135) 

<400> 6 

cgatcagaag caggtcacac agcctgtttc ctgttttcaa acggggaact tagaaagtgg 60 
cagcccctcg gcttgtcgcc ggagctgaga accaagagct cgaaggggcc atatgacact 120 
cctcccggac ccctggacac acacagccct ggagactgga ggtcagtatt tgatcccaag 180 
ctcagctgtc ctctgcctgc tgtggcctga gtccccttct cctggggccc tgcctggcac 240 
ctgctggggg cagggtggga gggggaagag ttagtgacag ccgctgtgtc tggagctctc 300 
cttagcacac tgaggcagag gaagggacag ctcctggacc ttccatcacc tccattcctt 360 
ttgaaatgct aggcgcttgt acaacccatc ttgggcctgg agaataagtc accacacctg 420 
tgtttctcaa aagaacagtg tcagggaacc cctgcctcag cacagcctta gaggactcat 480 
ggaaaatgca gaatccaggc ctgttcaatg gcaccttcct atgttagcag ccaggaaacc 540 
tgctcttgga caagcccctg ggatcccacc cccaccccac caggggattc ttacacacac 600 
tgggttggga gcccctggct ttggcaaggc ttctcaggtg agcgtccagt tgttggaggg 660 
tacccaccct ttccccaaga gaggcagcca cacatccaac atcctgggat ctctgtctcc 720 
cagcgtgggc catgtgcttt atttcacccc ctagaggctc atcccccatg aaaagtcctc 780 
cgcaggccct cagaaagata gtgtggcctc tgtgtgccca gcagaagaag gactggactt 840 
ggcagtcagc tcttggagag ggggtggtta ggacacctgg ggacaggagg aggagaatga 900 
ctgtctgtgc acacacggct ggaaggtaca ggaggctggg aagctgctct gtcccctggg 960 
ccaactacag gcccccaggc caacagcaac aacactttta gtattttgtt ataaagtcaa 1020 
gaaatctttg ctacagaggg tgaggagagg gaaggaaagg gccatggaac cgtctatgtg 1080 
gctatcccca gagagctttt agagtgacag gattgctttc ccatttcaca gatgaggaaa 1140 
ctgaggcctg gagagggatg ggaagctacc caaggcccca tggatacacc agtgcacaac 1200 
tctttccttc cccctcctct ttaaatgggt gattcccaat gaaacctgta agagacaacc 1260 
ataagggagc tgactgtggc tgctgaattt gattttattc taaggcctgg ttttataatc 1320 
agctttctca gtctttactg gagtgtcaag ccgaggcatc atttctaggg tcttacaggg 1380 
tctctgggcc aatagtgccc tgcttctgac ctggagccag ctgcctggtc atgaaagcag 1440 
atctgcaaag gctggggccc ctgaggccaa ggccactcgc catcacccat tttacagaag 1500 
tgctgagcat aggagtgccc tgggccccca agaatcccag ccaccaagaa tcacgtaaac 1560 
catccactgt ctcacttagg caccagtcag aatgtaggga acccacccct agtcatccat 1620 
catcttatca acaggacggg gcttgtagcc acatttatca ggtagggaaa ctgaagccta 1680 
gagatattaa agcacttgct taaggacaca cggttggtca ggatggaagg cgatgtctcc 1740 
tgactccctg acaggcacaa gagacaagcg agaggtgccc gtgacggcat gctcaagaac 1800 
gtgcagccct gggccagcca ggcccctgct ccgtgcctct gtttgcccat ctgtaaaagg 1860 
tgaggttgga tcgagggtcc ctgagggccg cccactggat ggctgtgcag agccaaacgg 1920 
agaaggcccc agggttcctt tcacccgaca cagcaagcac ttccccctga agtgcaggct 1980 
ccaggcccca gctgacctcc cctctcccag gccagcggct ctcacccctg gagcaaggga 2040 
caggcgctgg ctgtgctcag ggacatgcat gactcccgcc cccatctgtg ctcagggggt 2100 
gccagggagg cactggctct atctttctct aggccgtagt cagcccaggg gttcagacca 2160 
agagcccaga atccaacaga tcagagttca agtcccagct ctacctctat gttccactgg 2220 
cagcttcctc aggtcatttg caccttcctt gtcttgaatt tccatgccta accagtatac 2280 
cagctactcc ctccagccga tctaatgttt taattgtccc tttctctaag ttgtctcaaa 2340 
catttgtaat tctattccaa tccaccttaa tttagtcatt tatttcacaa atatttctgg 2400 
aaacatctag cacttaacag acactaaaag cgggggtact acacagtccc tgggatggac 24 60 
agggccctga gctgaggctt cagagtctgc ctgactgaat cctcacccca gccttgtgaa 2520 
cgtgggttct gttattatcc ccaatttata ggaaacagaa gcacagagaa gttgagtcac 2580 
ttgccagcta ccaggtcatc ccttccactt atccgggtca cagacagagt tattatgtaa 264 0 
accagatccc agctgcctgt tctccctccc tgagtaaggt ggagagaatt ctgaagtcag 2700 
cccagcctgg gtctgtatcc tgcccaccac tcaccagctc ctcatctttg gcaactctaa 2760 
gtctcagttc ccttatcata aaagggagat gtaaacagtc ctgagtgcag acagtgttca 2820 
ggttagtgca agagtgtgtg ctgggtgtga agtgcacagc cagcacgtca caagcactgg 2880 
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agacaaattc agctttgctt gttgcgcaca ctcaccagct gcgtgacttt agacctcagt 2940 
tttctcatct gttatgtggt ggtaatgata gacttttgtg agcattaaac tagattaggg 3000 
gctatggaga acctagatgg gtatgaagtg ggtataataa gctatcagtt aattttgctg 3060 
atagatagat tattgattga ttgatcgata gaagattcat accagtatct acctgctctg 3120 
aacactgacc tttctttttt tctttttgag atggtcttgt tctgtcaccc agactggagt 3180 
gcagtggcat catcatagct cactgcagcc tcagtctctt gggcttaagg gatcctcctg 3240 
tctcagcctc ccaagtagct gggaccacag gcgtgcatcc tggataattt ttttttattt 3300 
tttctagaga cggggtctca ctacattggc caggctggtc tcaaattcct gggctcaagt 3360 
gatccttcta acccagcctc ccaaagcgct gggattacag gcatgagtgg ccatgttcaa 3420 
cttgaacact gagacttcat tcgcatgtgt aacataaaac tgagtatcta gacaagccag 3480 
catctttctt tcaagtaatc actaaagcca atacttttac ttgaaatcat ctcatttaaa 3540 
actctgagca atacgtaagg atcacctcaa taacatatgg atcatcgcaa taggtgaagg 3600 
gtcttctctg ccttggagta acctgcccag caaaggggca gacccagatt tgggatctgg 3660 
cagctgggag agtggggaag gttgagccgt ggggcccttg tcattccctc tgcctgccag 3720 
gagggggcat gacacagctc ctaggcaccc caggagccac cgggaacccc aactggagtg 3780 
ggtcctcact gttctctttt tcctctggca gccttggagc atggcaagtc cagagcaccc 3840 
tgggagccct ggctgcatgg gacccataac ccagtgcacg gcaaggaccc agcaggaagc 3900 
accagccact ggccccgacc tcccgcaccc aggacctgac gggcacttag gtgggcttga 3960 
ggcttgagac tcggtctggg ggagaggtct gaagacattc aaagtacaaa tgtgggtcac 4020 
tttgggggat gcagcaagag gcccgggcag ctcttgtaac ttgggttatc ccaaaacaga 4080 
cactgagaca cagatctagt gcaagctgtt tatccgggag acggtcctag gagtcatggc 4140 
aggggagtgg gaatggaagg aaagggcaag aggccagggc aggacatcag tgaacagata 4200 
ggcacggtag gtggctgaag ctcaacccca gcgggggtct tctgggagac cctggaacat 4260 
atctctgggt tgtcctatcc taggggtgag gaagccgggc tgttatctac cagtcctgcc 4320 
ctgcatagga gaagggacgc tcctgggcct gctgctatgg ccctagaaag ccctcaggga 4380 
agccagtggc atgttctgga aaagtgggtg ccaagagggc acggtccagc ctggggcatg 4440 
gacagcatct gctgtagtgc catctcctgg aacagatctt ttcttacagt ccttcgagat 4500 
gccctattca atacctgctc tgttcctggc cctatgcagg gcactggaga aacagaaaca 4560 
ggaagaaatc aaacactgca ctagtcctga ggtttggtag agaaacagat cagtgagaaa 4620 
cagttacacg tgccacgaga aataaataaa taaaatgaaa aacctgtagg aacaaggtgg 4 680 
gaagctctta ctctaatgcc aaggggcatt tgcagtgatg tgggggctgg gtcttgaagg 4740 
gtagactgga aaagggctgg gacccatgcc ctttgcaata aaatgcacaa ttatttgtgc 4800 
ttcttaagaa cctcagagtg gcgcagggct caagtggggt ttaagaaaca ctgtgttcgt 4860 
tttccaggcg tggaaataga gggttggatg caaggcagag cagtgcacgt ccgagaagag 4920 
cccggcatgt gggcagttag atgagaaggt taggaagggc cagcccgctg aggctggaac 4980 
ataacatcct cctcactgcc tcccctgccc actgatgtgt gctcaaggag tcgtggcaac 5040 
agtcacgaag tcagggctgc agggagcaca gaaacacaca agccaccgtc tctgcttgtc 5100 
cagagcaggg atttcaccat ggccaatcta cagaccagaa gtggacgatg caaagtgccc 5160 
gcaccgcatt ccaaagctgt gaaaccactt gggggtgatg ggctatttgg gattgtcggt 5220 
ggtagggtgg attctgccag gctgggcaca gaggtctgtc tgatgcccca attgggccta 5280 
taaatggcgg ggtgggagag agggatattc aatactcttc aggagttctg atatgccatc 534 0 
tcagatagac ccagccatct ccccaagccc atgcctcgga agtgcactga cagggtgcag 5400 
atccttaagg gtgttgtcct tccagacaca cacagtggcc tgagctccaa ctccagcatg 5460 
accacgcggg agcttcagca gtactggcag aaccagaaat gccgctggaa gcacgtcaaa 5520 
ctgctctttg agatcgcttc agctcgcatc gaggagagaa aagtctctaa gtttgtggta 5580 
agcagagatt gggaaatggt ggagcctctt tcactctgct tccttcctgg ccctgaataa 564 0 
gtcttgtaga gcctcaggtt tcccaactat gaaatgggtc aacacactaa ctcacagctt 5700 
tcttctggag aaaatggcca aagagcaaga tttcaggctc agcacctgct agggtctgtg 5760 
aggattcgaa ccatataagt catatttctt ggtcccaaga aggaaatagc ccagtttaat 5820 
cccatcttat caggtgtcag tcacctgtgt cctttcttca ccaattttgc catatcactg 5880 
tatctgttct aattattatt acttattttt ttctttaaat tggatcactt tttaaaaaca 5940 
tgaagcacat ttatttcaaa gagaaatacc ttaaatggaa aaccaatatc acatggcaca 6000 
aagcaaaagt aacatactag aaaagtcgat acaaggaaag tcaatacaag gaaagctatg 6060 
tgctgttatt aaattctagc tggttactgt ggcttcggga aagccctgtg cctgggagct 6120 
gctcctctcc ctgttagaat ggaattttag cttgtgttaa gggatgttaa agactgccta 6180 
agagccacac ttcatccttc tccttcactt acctgggacc gggataaata acatagctac 6240 
cactgaatgc caatggcatg ccgggcacag ctccatgtgg tttcagtgca ttaactcatt 6300 
taatcctcac tgggtgaggt aggcactatg cctatccttg ttttatgaat gagaaaagtg 6360 
agactcggag aggttaaatt actcatctaa aaccacacag ctagaccatg gtagggctat 6420 
aattacaacc catgcaatct ggctctggag tcagatgcat gggttataat tgcccttaat 6480 
atataattgc ccgtaatcag gattctcttg aaagatgatt gaaaaggatt gattttctta 6540 
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ccatataacg gcatcaccag 
caagtgtgaa acatttggaa 
gcaagtaaag ccaagaggga 
tcccagatgt ccccaccttg 
gcaatttaaa acagaattgg 
ggaggcccag gtaggaggat 
gccagacccc atcttttaaa 
tcccagctac tcaggaggct 
agtgaggtat gatcgcatca 
aaaaataaat aaataaataa 
tcaattgcat ataaggatcg 
tactctgggt gtgctccgtc 
gttgcgccct aggtgtacca 
gccgtcctgg aacggcgcta 
ttcagggagg agatcgaaga 
gaggagatga tctgtgagcg 
atccgctgcg tgcgccgctc 
gaggctttcg gctgcctgcg 
gtgctgccgc tgcaggagaa 
tgcgccgtgc tgctgtgcca 
gagagggccc tgcagcgcct 
gacgccatgg tccgcctggc 
ctggaggaga gccagctccg 
gtgcgagaat acctgcactg 
tcaccatggc tcacagtggg 
tgttatttga gacagtcttg 
tcactgcagc ctcaaactcc 



tgtacctaaa tgatgttata 
aacacagcat ctcagttcag 
ccccagcagc ctgcagggca 
ctgtgttgtt gttccagggt 
gccaggtgca gtggctcatg 
cgcttgagcc caggagttgg 
aagaatcaaa aaatctgcca 
caggtgggca ggtcaattga 
ctgtactcca gcctgggtaa 
ataaataaat aaataaacaa 
cccgttttca gggcatgctt 
cgccgcagcc cccgccggga 
aatcatcgtc atccagactg 
ttccgacttc gcgaagctcc 
cgtggagttt cccaggaagc 
tcggcgcgcc ctgcaggagt 
ccgggagttc ctggacttcc 
ggccggccag tacccgcgcg 
gctcaccgcc cactgccctg 
ccgcgacctc gaccgccccg 
gcaggcccgg gagggccatc 
ctacgcgctg ggcaaggact 
gaggcccacg ccccgaggca 
agccggcctg ggaccccgca 
ctgtttgggg ttcttttttt 
ctctgtcacc cagactgaag 
tgggcacaag caatc 



ttgtacgtaa aactaattcc 6600 
aaaacagagg cccagtttta 6660 
ggaccctctg ccctttctcc 6720 
tgactcagct gatgccaata 6780 
cctgtaatcc cagcactttg 6840 
agaccagcct gggcaacaca 6900 
ggtagtgggt gtgcctgtag 6960 
gcccataagt tcaaggttgc 7020 
cagtgcgaga ccctgtctct 7080 
acaaacaaac aaacaaacaa 7140 
tacaccggcc tggttaactt 7200 
ggtggccaca gctctctctg 7260 
ggagctttga caacaacaag 7320 
agaaagcgct gctgaagacg 7380 
acctgactgg gaacttcgct 7440 
acctgggcct gctctacgcc 7500 
tcacgcggcc ggagctgcgc 7560 
ccctggagct gctgctgcgc 7620 
cggccgccgt cccggccctg 7680 
ccgaggcctt cgcggccgga 7740 
gctactatgc gcctctgctg 7800 
tcgtgactct gcaggagagg 7860 
tcaccctgaa ggagctcact 7920 
gggacgctgg agatttgggg 7980 
ttatttttcc ttttcttttt 8040 
tgcagtggct caattatgtc 8100 

8135 



<210> 7 
<211> 16 
<212> ADN 

<213> Homo sapiens 
<400> 7 

ctgggtgcga ttgctc 16 



<210> 8 
<211> 16 
<212> ADN 

<213> Homo sapiens 
<400> 8 

ccaggcccca tgacag 16 



<210> 9 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 9 

tggtcccggc ccaatcccaa tgctt 25 



<210> 10 
<211> 28 
<212> ADN 

<213> Homo sapiens 
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<400> 10 

ttcctcatgt ataaattggg tgtggcca 



<210> 11 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 11 

acagagtgag gaccccatct ctatc 25 



<210> 12 
<211> 25 
<212> ADN 

<213> Homo sapiens 



<210> 13 
<211> 22 
<212> ADN 

<213> Homo sapiens 
<400> 13 

agtccccgag accagggcaa ac 22 



<210> 14 
<211> 23 
<212> ADN 

<213> Homo sapiens 



<210> 15 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 15 

ctctccccat agaaggcatc 20 

<210> 16 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 12 



tccaactgct gggattacag gcaca 



25 



<400> 14 

tccatttctg cagtacacat gca 



23 



<400> 16 

ggatagagac gttctcttaa 



20 



<210> 17 
<211> 20 
<212> ADN 
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<213> Homo sapiens 



<400> 17 

caggctgaat gacagaacaa 



20 



<210> 18 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 18 

attgaaaaca actccgtcca 20 



<210> 19 
<211> 25 
<212> ADN 

<213> Homo sapiens 



<210> 20 
<211> 21 
<212> ADN 

<213> Homo sapiens 
<400> 20 

ggctcagttc ctaaccagtt c 21 



<210> 21 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 22 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 22 

tgaatcttac atcccatccc 20 



<210> 23 

<211> 17 

<212> ADN 

<213> Homo sapiens 



<400> 19 

atactcactt ttagacagtt caggg 



25 



<400> 21 

agtcagtctg tccagaggtg 



20 



<400> 23 

gatcttccca aagcgcc 



17 



<210> 24 
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<211> 17 
<212> ADN 

<213> Homo sapiens 



<400> 24 

tcccgtcagc caagcta 



17 



<210> 25 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 25 

aagcttgtat ctttctcagg 20 



<210> 26 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 27 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 27 

cctccataat catgtgagcc 20 

<210> 28 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 29 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 29 

ggatgcctgc tctaaatacc 20 



<210> 30 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 26 

atctaccttg gctgtcattg 



20 



<400> 28 

aatctcccca actcaagacc 



20 



<400> 30 

cccaggggtc aaacttaat 



19 



30 



2806739 



<210> 31 
<211> 21 
<212> ADN 

<213> Homo sapiens 
<400> 31 

ggtttgaaag tatctccagg g 21 

<210> 32 
<211> 21 
<212> ADN 

<213> Homo sapiens 



<210> 33 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 33 

gtgcatgtgt tcgtatcaac 20 



<210> 34 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 35 

<211> 18 

<212> ADN 

<213> Homo sapiens 

<400> 35 

aaagccaacc ttgcttca 18 



<210> 36 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 32 

ggtttgaaag tatctccagg g 



21 



<400> 34 

tcatctccaa aggagtttct 



20 



<400> 36 

tcttggaaac aggtaagtgc 



20 



<210> 37 
<211> 18 
<212> ADN 



<213> Homo sapiens 



<400> 37 
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attgccctca agaacagc 



<210> 38 
<211> 17 
<212> ADN 

<213> Homo sapiens 
<400> 38 

gtgctatgcc atcccag 17 



<210> 39 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 40 

<211> 24 

<212> ADN 

<213> Homo sapiens 

<400> 40 

cacactttac acacacctat accc 24 



<210> 41 
<211> 22 
<212> ADN 

<213> Homo sapiens 



<210> 42 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 42 

gcttgggtta aatgcgtgt 19 



<210> 43 

<211> 20 

<212> ADN 

<213> Homo sapiens 



<400> 39 

ccacaccagc gtttttctaa 



20 



<400> 41 

aagccatatt aggtctgtcc at 



22 



<400> 43 

agcagtttgg gtaaacattg 



20 



<210> 44 
<211> 20 
<212> ADN 



<213> Homo sapiens 
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<400> 44 

aaatatgcct tctggaggtg 



20 



<210> 45 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 45 

ggaggatcag gggagtttat 20 

<210> 46 
<211> 24 
<212> ADN 

<213> Homo sapiens 



<210> 47 
<211> 23 
<212> ADN 

<213> Homo sapiens 
<400> 47 

ccaactctgt agtttcaaag age 23 

<210> 48 

<211> 20 

<212> ADN 

<213> Homo sapiens 



<210> 49 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 49 

gacagcctca aatgaaatat aacac 25 

<210> 50 

<211> 25 

<212> ADN 

<213> Homo sapiens 



<400> 46 

caaagtaaat gaatgtctac tgee 



24 



<400> 48 

tcacagccta cttgcttggt 



20 



<400> 50 

gctctcagct agggtagttg tttat 



25 



<210> 51 
<211> 25 
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<212> ADN 

<213> Homo sapiens 



<400> 51 

atttttaagg aatgtaaagn acaca 



25 



<210> 52 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 52 

gaccaggagt cagtaaaagg 20 



<210> 53 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 54 
<211> 24 
<212> ADN 

<213> Homo sapiens 
<400> 54 

gaagtagatc agtcatcttg ctgc 24 

<210> 55 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<210> 56 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 56 

gggacatcac caagcacaag 20 

<210> 57 
<211> 25 
<212> ADN 

<213> Homo sapiens 



<400> 53 



gtccaaaaca ccaccctcta 



20 



<400> 55 

tcctctgggg gattcactc 



19 



<400> 57 

caggaaaata aatctaacac acata 



25 



34 
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<210> 58 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 58 

cctgtgggca ctgataaata 20 



<210> 59 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<210> 60 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 60 

cccagccccc atctcacca 19 

<210> 61 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<210> 62 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 62 

tcactcccac caccctttc 19 



<210> 63 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 59 

cccagccccc atctcaccg 



19 



<400> 61 

ctgcggagga ggctgctgg 



19 



<400> 63 

agaagtttag tgtggcgtgg 



20 



<210> 64 
<211> 17 
<212> ADN 



<213> Homo sapiens 



<400> 64 

gccatctccc caagccc 



17 
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<210> 65 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 65 

tcgatgcgag ctgaagcg 18 



<210> 66 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 66 

tcgatgcgag ctgaagca 18 



<210> 67 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 67 

tgaatgttaa agggctctgg 20 

<210> 68 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 68 

ttggttctca gctccggcg 19 

<210> 69 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 69 

ttggttctca gctccggca 19 

<210> 70 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 70 

agaaaccggg ctggctgtg 19 

<210> 71 
<211> 21 
<212> ADN 

<213> Homo sapiens 
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<400> 71 

gcattgcctt ttgatctcta c 



2.1 



<210> 72 

<211> 18 

<212> ADN 

<213> Homo sapiens 

<400> 72 

tgggctcttc tgcgggga 18 



<210> 73 

<211> 18 

<212> ADN 

<213> Homo sapiens 



<210> 74 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 74 

tgcctcttct tctgccttcc 20 



<210> 75 

<211> 22 

<212> ADN 

<213> Homo sapiens 



<210> 76 

<211> 24 

<212> ADN 

<213> Homo sapiens 

<400> 76 

cctgagctgt acctgaggaa gcgc 24 

<210> 77 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 73 

tgggctcttc tgcggggg 



18 



<400> 75 

cgagctgtac ctgaggaagc gt 



22 



<400> 77 

catcatgagc ccggggtggc 



20 



<210> 78 
<211> 23 
<212> ADN 
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<213> Homo sapiens 



<400> 78 

tttctcttgg cttcctggtg cgt 



23 



<210> 79 

<211> 25 

<212> ADN 

<213> Homo sapiens 

<400> 79 

accttctctt ggcttcctgg tgcgg 25 



<210> 80 

<211> 26 

<212> ADN 

<213> Homo sapiens 



<210> 81 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 81 

atctgagaag gccctgctct 20 



<210> 82 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 83 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 83 

cccacactta gccttgatg 19 

<210> 84 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 80 

gccaaaggtg tcgtgccagg gctcca 



26 



<400> 82 

atctgagaag gccctgctcc 



20 



<400> 84 

atgagttagc ccagcggag 



19 



<210> 85 



38 



2806739 



<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 85 

attgagagcc cttggagtg 



19 



<210> 86 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 86 

tgatttcgta agacaagtg 19 



<210> 87 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 88 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 88 

agctgagatg tccggatcg 19 

<210> 89 

<211> 18 

<212> ADN 

<213> Homo sapiens 



<400> 87 

agcaaattct aggagttatg 



20 



<400> 89 

agctgagatt ccggatca 



18 



<210> 90 
<211> 20 
<212> ADN 



<213> Homo sapiens 



<400> 90 

gtcctcttaa cttcccttcc 



20 
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O : divulgation non-ecrite 
P : document intercataire 



T : theorie ou principe a la base de f invention 

E : document de brevet benefiriant dune date anterieure 

a la date de depot et qui n'a ete publie qu'a carte date 

de depot ou qu'a une dale posterieure. 
D : die dans la demande 
L : cite pour d*autres raisons 



& : membre de la meme famiPe, document correspondant 
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N°d'enreglstrement 
national 
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DOCUMENTS CONSIDERES COMME PERTINENTS 



Revon cheat ions 
concernees 
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des parties pertinentes 



[attrlbu6 
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DATABASE SWISSPROT 'en ligne! 

ACCESSION NO: Q9Y239, 

INOHARA, N. , ET AL.: "N0D1 protein" 

XP002156670 

* le document en entier * 

-& INOHARA, N., ET AL.: "Nod 1, an 

Apaf-l-like activator of caspase-9 and 

nuclear factor-kappaB" 

THE JOURNAL OF BIOLOGICAL CHEMISTRY, 

vol. 274, no. 21, 

21 mai 1999 (1999-05-21), pages 

14560-14567, XP002156656 

* le document en entier * 

WO 99 40102 A (BERTIN JOHN ;MILLENNIUM 
PHARM INC (US)) 12 aout 1999 (1999-08-12) 

* figures 3,10,18 * 
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Date cfachevement de la recherche 

8 Janvier 2001 



Examinateur 

Maddox, A 



CATEGORIE DES DOCUMENTS CITES 

X : particuliefement pertinent a tui seul 

Y : particulierernent pertinent en combinaison avec un 

autre document de la meme categorie 
A : arrie re-plan technologique 
O : divulgation non-ecrtte 
P : document intercalaire 



T : theorie ou pnncipe a la base de Hnvention 

E : document de brevet benefictant dune date anterieure 

a la date de depot et qui n'a ete pubtie qu'a cette date 

de dep6t ou qu'a une date poslerieure. 
D : cite dans la demande 
L : cite pour tfautres raisons 



& : membre de la meme tamille. document cortespondant 
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RECHERCHE INCOMPLETE 

FEUILLE SUPPLEMENTAL C FA 591027 

FR 0003832 



Certaines revendi cations n'ont pas fait Tobjet d'une recherche ou ont 
fait Tobjet d'une recherche incomplete, a savoir: 

Revendi cations ayant fait 
Tobjet de recherches completes: 
1-23 



Revendi cations ayant fait 
Tobjet de recherches incompletes: 
25 26 



Revendi cati ons n' ayant pas fait 
Tobjet de recherches: 

24(completement) et, 25 et 26 parti el 1 ement 

Raison: 



Les revendi cati ons 24 et 25f,et 26 (pour autant qu'elle se referes a 25f) 
presentes ont trait a un compose defini en faisant reference a une 
caracteri sti que ou propriete souhai table, a savoir un compose capable 
d'interagir avec un acide nucleotidique selon Tune des revendi cati ons 1 
a 3. Les revendi cati ons couvrent tous les composes presentant cette 
caracteri sti que ou propriete, alors que la demande ne foumit pas un 
fondement au sens de TArticle 6 PCT et/ou un expose au sens de TArticle 
5 PCT pour tels composes. Dans le cas present, les revendi cati ons 
manquent de fondement et la demande manque d 1 expose a un point tel qu'une 
recherche significative sur tout le spectre couvert par les 
revendi cati ons est impossible. Independamment des raisons evoquees 
ci-dessus, les revendi cati ons manquent aussi de clarte. En effet, on a 
cherche a defini r le compose au moyen du resultat a atteindre. Ce manque 
de clarte est, dans le cas present, de nouveau tel qu*une recherche 
significative sur tout le spectre couvert par les revendi cati ons est 
impossible. 
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ABSENCE D'UNITE D'INVENTION 
FEUILLE SUPPLEMENT AIRE B 



Numdro de la 

FA 591027 
FR 0003832 



La division de la recherche estime que la pr6sente demande de brevet ne satisfait pas & I'exigence relative 
£ I'unite d'invention et conceme plusieurs inventions ou pluralites d'inventions, a savoir : 

1. revendi cations: 1-26 partiellement 

Acide nucleique et polypeptide characterise par le groupe de 
sequences SEQ ID NO: 1,2, et 3, et des sequences presentant 
un pourcentage d'identite avec,ou fragments de, ou 
s'hybridant avec ces sequences 1,2, ou 3,comme definies dans 
les revendi cations, vecteur de clonage, cellule hote, animal 
excepte l'homme,uti1i sat ion, procede d'obtentlon d'un 
polypeptide, anti corps, trousse de react ifs,methode de 
diagnostic, procede de detection, procede de criblage et 
compose, bases sur ces sequences 



2. revendi cations: 1-26 partiellement 

Acide nucleique et polypeptide characterise par le groupe de 
sequences SEQ ID NO: 4,5, et 6, et des sequences presentant 
un pourcentage d'identite avec,ou fragments de, ou 
s'hybridant avec ces sequences 4,5, ou 6,comme definies dans 
les revendi cations, vecteur de clonage, cellule hote, animal 
excepte 1 'homme^tili sation, procede d'obtention d'un 
polypeptide, anticorps, trousse de reactifs,methode de 
diagnostic, procede de detection, procede de criblage et 
compose, bases sur ces sequences 



Toutes les inventions ont cependant ete recherchees. 




